Googlebot indexe des page inutiles

Cleden · 12 Octobre 2004

Bonjour,

Je laisse quelques permissions à Google pour qu'il visite mon site en profondeur. Cependant, je remarque qu'il indexe (par centaines) des pages inutiles voire préjudiciables pour mes membres.

Le nom de ces pages est du type:

-www.ouetu.com/index.php?variable=valeur&variable1=valeur1&variable2=valeur2

Existe-t-il une méthode empêchant notre cher googlebot d'indexer ces pages ou, encore, une méthode pour pour qu'il ne suive pas certaines liens ?

D'avance merci ,

Loïc.

Cleden · 12 Octobre 2004

Salut Cleden :wacko:

J'ai trouvé ceci sur la FAQ de google, ça permet d'empêcher Googlebot de visiter les pages dynamiques (avec variables). Il suffit de l'inclure dans ton robots.txt.

User-agent: Googlebot
Disallow: /*?

Puisque ton site est rewrité, ça ne devrait pas poser de problèmes, Googlebot continuera à indexer les pages rewritée. Quelqu'un peut confirmer ?

Bonne chance à toi,

Loïc.

Jeff · 12 Octobre 2004

Salut Cleden,

Si on a lu la même FAQ, je cite GG:

Pour interdire l'accès de votre site aux robots-explorateurs, vous pouvez installer sur votre serveur le fichier robots.txt. Ce fichier empêche le robot-explorateur de Google (et tout autre robot ou « spider ») de visiter votre site. Le nom d'agent utilisateur (User-agent) de notre robot est « Googlebot ». Googlebot supporte certaines caractéristiques du standard robots.txt : les filtres d'interdiction/Disallow peuvent inclure le caractère * (toute séquence de caractères), et se terminer par le caractère $ (fin du nom). Exemple Pour empêcher Googlebot d'explorer les fichiers à extension « gif », insérez l'instruction suivante dans le fichier robots.txt :

User-agent: Googlebot

Disallow: /*.gif$

Donc si je comprends bien, cela sert juste à exclure les fichiers en tenant compte de leurs terminaisons; De plus je crois bien qu'il faut terminer dans tous les cas par: $

Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" .

Plus de details sur le fichier "robots.txt":

http://www.yooda.com/outils_referencement/robots_txt.php

Jeff,

Modifié 12 Octobre 2004 par Jeff

Cleden · 12 Octobre 2004

Merci pour ta réponse,

Tout en bas de cette FAQ google, il y a:

12. Comment dois-je procéder pour demander à Googlebot de ne pas explorer les pages de mon site qui sont générées en mode dynamique ?

Utilisez le fichier robots.txt suivant :

User-agent: Googlebot

Disallow: /*?

Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" .

Moi non plus, toutefois, j'ai une confiance aveugle en tout ce qui est en rapport avec Google J'essaie cette manière, je vous signalerai si elle fonctionne.

Loïc.

Anonymus · 12 Octobre 2004

Si tu ne veux pas qu'il indexe ton site, c'est effectivement la meilleure facon. Seulement, il ne va rien indexer du tout !

Si tu ne veux pas qu'il indexe certaines pages, alors il faut placer, dans l'entete de celles ci :

Ce qui signifie : ne pas indexer, ne pas suivre.

De manière générale, une page qui explique bien comment s'y prendre pour ce genre de méta, voire la rédaction d'un fichier 'robots.txt', sans exclure l'ensemble du site +>

http://www.toulouse-renaissance.net/c_outi..._robots_txt.htm

A.

Cleden · 13 Octobre 2004

Ok Anonymus,

J'ai opté pour :

<? 
if ($variable == 'valeur' or $variable1=='valeur1')
{
print '<meta name="robots" content="noindex, nofollow">';
}
?>

Merci pour tes précisions :up: ,

Loïc.

Connexion

Googlebot indexe des page inutiles

Sujets conseillés

Cleden

Cleden

Jeff

Cleden

Anonymus

Cleden

Veuillez vous connecter pour commenter

Parcourir

Activité