Spidetra Posté 20 Mars 2006 Posté 20 Mars 2006 GoogleBot Keep Out Je suis assez surpris par la méthode décrite par Matt Cutts dans ce billet pour interdire à GoogleBot d'indéxer une page. Par contre, je trouve le billet intéressant car il nous explique comment utiliser les wilcards dans un robots.txt pour contrôler l'indexation de GoogleBot. J'étais persuadé que les wilcards n'étaient pas pris en compte dans un robots.txt User-agent: GooglebotDisallow: *googlebot=nocrawl$ Using that robots.txt would block the url-http://www.mattcutts.com/blog/somepost.html?googlebot=nocrawl but not the url -http://www.mattcutts.com/blog/somepost.html?googlebot=nocrawl&option=value.
Jeanluc Posté 20 Mars 2006 Posté 20 Mars 2006 (modifié) Bonjour, Je suis assez surpris par la méthode décrite par Matt Cutts dans ce billet pour interdire à GoogleBot d'indéxer une page.Moi aussi. C'est utile à quelqu'un ? Parce que, dans cette logique, si [i]http://www.mattcutts.com/blog/googlebot-keep-out/?googlebot=nocrawl'>]http://www.mattcutts.com/blog/googlebot-keep-out/?googlebot=nocrawl n'est pas indexé, [i]http://www.mattcutts.com/blog/googlebot-keep-out/ le sera quand même. Par contre, je trouve le billet intéressant car il nous explique comment utiliser les wilcards dans un robots.txt pour contrôler l'indexation de GoogleBot.Cette info se trouve aussi dans supprimer des informations de l'index Google. J'étais persuadé que les wilcards n'étaient pas pris en compte dans un robots.txtLes wildcards ne sont pas pris en compte selon la norme robots.txt, mais ils peuvent l'être par certains robots. Ceci veut dire qu'il faut absolument limiter l'emploi de ces wildcards aux directives concernant les robots qui les acceptent, comme ceci : User-agent: *Disallow: pas de wildcards iciUser-agent: nom_du_robotDisallow: wildcards possibles ici Jean-Luc Modifié 20 Mars 2006 par Jeanluc
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant