Aller au contenu

Sujets conseillés

Posté

GoogleBot Keep Out

Je suis assez surpris par la méthode décrite par Matt Cutts dans ce billet pour interdire à GoogleBot d'indéxer une page.

Par contre, je trouve le billet intéressant car il nous explique comment utiliser les wilcards dans un robots.txt pour contrôler l'indexation de GoogleBot.

J'étais persuadé que les wilcards n'étaient pas pris en compte dans un robots.txt

User-agent: Googlebot
Disallow: *googlebot=nocrawl$

Using that robots.txt would block the url

-http://www.mattcutts.com/blog/somepost.html?googlebot=nocrawl

but not the url

-http://www.mattcutts.com/blog/somepost.html?googlebot=nocrawl&option=value.

Posté (modifié)

Bonjour,

Je suis assez surpris par la méthode décrite par Matt Cutts dans ce billet pour interdire à GoogleBot d'indéxer une page.
Moi aussi. ;) C'est utile à quelqu'un ? Parce que, dans cette logique, si [i]http://www.mattcutts.com/blog/googlebot-keep-out/?googlebot=nocrawl'>]http://www.mattcutts.com/blog/googlebot-keep-out/?googlebot=nocrawl n'est pas indexé, [i]http://www.mattcutts.com/blog/googlebot-keep-out/ le sera quand même. :rolleyes:

Par contre, je trouve le billet intéressant car il nous explique comment utiliser les wilcards dans un robots.txt pour contrôler l'indexation de GoogleBot.
Cette info se trouve aussi dans supprimer des informations de l'index Google.

J'étais persuadé que les wilcards n'étaient pas pris en compte dans un robots.txt
Les wildcards ne sont pas pris en compte selon la norme robots.txt, mais ils peuvent l'être par certains robots. Ceci veut dire qu'il faut absolument limiter l'emploi de ces wildcards aux directives concernant les robots qui les acceptent, comme ceci :
User-agent: *
Disallow: pas de wildcards ici

User-agent: nom_du_robot
Disallow: wildcards possibles ici

Jean-Luc

Modifié par Jeanluc

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...