robots.txt et META "robots"

**Jeanluc** · 8 Décembre 2005

Bonjour,

J'ai mis en ligne une série de pages sur le Protocole d'Exclusion des Robots, c'est-à-dire sur le rôle et le contenu du fichier robots.txt et de la balise META "robots". J'ai essayé d'être complet.

Rien de nouveau en soi, puisque tout cela a été défini en 1994,... bien avant l'apparition des puissants moteurs de recherche actuels. En fait, c'est justement cette ancienneté de la norme qui cause des malentendus dans son utilisation.

J'ai essayé de préciser, dans les détails, la syntaxe et les effets exacts de l'emploi de robots.txt et de META "robots" et les variantes propres à Googlebot, MSNBot et Yahoo! Slurp, pour que même les experts y trouvent des informations utiles, par exemple :

- quand et comment employer le caractère "*" dans robots.txt ?

- comment éliminer toute référence à une page dans les résultats de recherche ?

Jean-Luc

**Régis** · 8 Décembre 2005

J'ai mis en ligne une série de pages sur le Protocole d'Exclusion des Robots, c'est-à-dire sur le rôle et le contenu du fichier robots.txt et de la balise META "robots".

Bonjour "Jeanluc",

Toujours aussi efficace et clair...

Remi · 8 Décembre 2005

Très bonnes pages en effet.

J'aurais juste ajouté que le fait qu'une page en 'Meta Noindex' apparaisse dans les résultats de la commande 'site:' de Google ne signifie pas qu'il n'a pas respecté la directive : La dite-page ne sortira pas dans une requête normale.

**Jeanluc** · 8 Décembre 2005

Régis : merci.

Remi : merci aussi. Il me semble qu'une page avec la META "noindex" n'apparaît pas dans les résultats de la commande site: de Google. Pour être certain, je vais refaire un test spécifique avec site: et je communiquerai le résultat. Si tu as des exemples visibles sur Google, ça m'intéresse.

Jean-Luc

Remi · 8 Décembre 2005

Des exemples, j'en ai pas mal mais c'est assez net sur un site tout neuf (2-3 semaines), car là je suis certain que la page a toujours été en noindex

-http://www.tarlant.fr/fr/imgp.php?im=travaux-vigne-01

D'ailleurs quand tu fais la commande 'site:', toutes mes gros plans de photos apparaissent à la fin en pages similaires. Il n'affiche pas le titre de la page.

Ou encore :

Cette page

http://www.tarlant.com/en/press.php

jusqu'à ce matin, elle était en 'noindex' et en plus, interdite par le 'robots.txt'... et pourtant elle apparait dans la commande 'site:'. En revanche, j'en suis certain, le googlebot n'est jamais venu la lire et c'est pourcela qu'il ne peut pas mettre le titre. Il indique seulement qu'il a connaissance que la page existe parce qu'il y a des liens vers elle.

**Jeanluc** · 8 Décembre 2005

jusqu'à ce matin, elle était en 'noindex' et en plus, interdite par le 'robots.txt'... et pourtant elle apparait dans la commande 'site:'. En revanche, j'en suis certain, le googlebot n'est jamais venu la lire et c'est pourcela qu'il ne peut pas mettre le titre. Il indique seulement qu'il a connaissance que la page existe parce qu'il y a des liens vers elle.

Ce que tu expliques est parfaitement logique et conforme au standard.

Si robots.txt interdit l'accès à une page, Googlebot s'interdit de venir lire la page, il ne peut donc pas savoir qu'elle contient le "noindex" et que tu ne veux pas qu'elle apparaisse dans son index.

Comme tu n'es certainement pas le seul à te poser cette question, je viens d'ajouter une page à la FAQ : Puis-je utiliser robots.txt et la balise META "robots" sur un même site ?.

Jean-Luc

Remi · 8 Décembre 2005

Si robots.txt interdit l'accès à une page, Googlebot s'interdit de venir lire la page, il ne peut donc pas savoir qu'elle contient le "noindex" et que tu ne veux pas qu'elle apparaisse dans son index.

<{POST_SNAPBACK}>

Ah, mais c'est qu'il ne me croit pas...

Bon, alors je te donne un exemple de pages en noindex sans bloquage par robots.txt :

http://www.google.fr/search?hl=fr&q=site%3...u-barrejats.com

et regarde tous les liens en 'pages similaires' en bas

Non, je crois qu'il affiche par la commande 'site:' toutes les pages dont il connait l'existence d'une façon ou d'une autre. Cela ne veut pas dire que toutes ces pages sont susceptibles de sortir dans une requête normale.

Ce que je voulais te dire au début, c'est qu'il ne faut utiliser la commande 'site:' pour vérifier si Google a bien respecté les consignes de noindex.

**Jeanluc** · 8 Décembre 2005

Ah, mais c'est qu'il ne me croit pas...

Je sais, je suis comme ça...

Bon, alors je te donne un exemple de pages en noindex sans bloquage par robots.txt :

http://www.google.fr/search?hl=fr&q=site%3...u-barrejats.com

et regarde tous les liens en 'pages similaires' en bas

Je ne vois rien de spécial. Peut-être que j'aboutis sur un autre data center que toi. :wacko:

Je ne comprends pas pourquoi je dois regarder les "pages similaires". A part la première, ce sont toutes des pages d'autres sites. :unsure:

Ce que je voulais te dire au début, c'est qu'il ne faut utiliser la commande 'site:' pour vérifier si Google a bien respecté les consignes de noindex.

Merci pour tes infos.

Jean-Luc

P.S. très très beau site. Bravo.

Modifié 8 Décembre 2005 par Jeanluc

Remi · 8 Décembre 2005

Je ne comprends pas pourquoi je dois regarder les "pages similaires". A part la première, ce sont toutes des pages d'autres sites.

<{POST_SNAPBACK}>

Comment ça, des pages d'autres sites ?

C'est une commande site:ww... donc tu as toutes les pages d'un même site. Mais c'est un autre site que celui de mon premier exemple, c'est vrai.

Par contre, quand je te disais 'en bas', c'est parce que je liste les résultats Google par pages de 100... Si tu es en mode normal (10), va directement à la page 9, j'ai bien 150 résultats en page similaires, toutes les pages en 'noindex'.

**Jeanluc** · 8 Décembre 2005

Ok, c'était un malentendu. J'ai trouvé les pages dont tu parlais. Je vais ré-examiner cela en détail, parce que j'arrive même à les faire apparaître sans la commande site:.

Exemple : cru-barrejats "Basse qualité" frondaison.

Jean-Luc

Anonymus · 8 Décembre 2005

Une précision :

Quand on demande à un site de ne pas indexer une page, il faut bien qu'il note l'url de cette page pour s'en rappeler. De plus, il y a bien des liens qui pointent vers cette page. il est donc normal que ces pages ou tout du moins leurs urls apparaissent dans le listing des urls du site en question.

Par contre, dans la mesure où l'on demande à ne pas indexer (no-index), on sous entend ne pas indexer le contenu de la page. Bien que le moteur note l'url de la page, il ne prend pas le contenu de celle ci, et c'est pourquoi l'url apparait en fin de liste.

D'un coté il prend l'url de la page, d'un autre coté il n'en prend pas le contenu.

Pour qu'il ne prenne pas l'url non plus, il faudrait noter au niveau de tous les liens qui pointent vers cette page : rel=no-follow. Fais une recherche sur google, tu trouveras des infos intéressantes à ce propos.

il est aussi possible d'interdire l'accès à cette page via le robots.txt, auquel cas il n'essaie même pas d'y accéder, ou via le htaccess, auquel ca (en fonction de ce que l'on y met), il n'a pas le droit d'y accéder, ou via un formulaire.. Auquel cas il n'appuie pas sur le bouton pour accéder à la page suivante

Voilà.

Remi · 9 Décembre 2005

Je vais ré-examiner cela en détail, parce que j'arrive même à les faire apparaître sans la commande site:.

<{POST_SNAPBACK}>

Oui, effectivement.

Il sort ces pages quand les mots sont dans l'url.

J'arrive à faire sortir de cette façon des pages protégées par robots.txt de mon premier exemple. Et là, ce sont des pages que Googlebot n'est jamais venu lire. J'en suis certain.

Faut-il mettre un "rel nofollow" sur le lien comme le suggère Anonymus ?

(mais à mon avis, le 'rel nofollow' a une autre fonction)

Modifié 9 Décembre 2005 par Remi

Anonymus · 9 Décembre 2005

Sans indiscrétions, pourquoi autant d'acharnement à faire disparaitre ces pages ?

Elles ne dérangent apparemment pas plus que ca !?

La fonction rel no follow fait comprendre au moteur qu'il ne faut pas suivre le lien. Evidement, si c'est un autre site qui fait le lien, il est difficile de lui demander de mettre un rel no follow (ou tout du moins, de faire la chasse aux sites qui affichent un lien vers tes pages... )

Le robots.txt devrait te convenir, sinon.

Remi · 9 Décembre 2005

En fait, au départ, j'ai mis toutes ces pages en noindex car elles n'ont pas de contenu texte, pour éviter qu'elles sortent en 'pages ignorées'...

Mais comme elles sortent en 'pages similaires', l'effet n'est pas très réussi.

**Jeanluc** · 9 Décembre 2005

Bonjour Anonymus,

Quand on demande à un site de ne pas indexer une page, il faut bien qu'il note l'url de cette page pour s'en rappeler.

D'accord, mais il peut en noter l'adresse dans sa database et ne jamais l'afficher.

Par contre, dans la mesure où l'on demande à ne pas indexer (no-index), on sous entend ne pas indexer le contenu de la page. Bien que le moteur note l'url de la page, il ne prend pas le contenu de celle ci, et c'est pourquoi l'url apparait en fin de liste.

Le problème est que le Protocole d'Exclusion des Robots ne définit pas ce qu'il faut entendre par le mot indexer. On peut le comprendre comme toi ou on peut comprendre "ne jamais afficher cette adresse dans les résultats".

J'ai fait des tests pour comparer comment Googlebot, Slurp et MSNBot interprétaient ce noindex. D'après mes tests, MSNBot n'indexe pas le contenu de la page mais conserve l'adresse et Googlebot et Slurp excluent complètement l'adresse des résultats de recherche. Remi a mis le doigt sur le fait que, pour Googlebot, ce n'était pas aussi simple.

Pour Google, je pense que le formulaire de suppression de pages permet de supprimer complètement les adresses désignées dans les résultats de recherche.

Pour qu'il ne prenne pas l'url non plus, il faudrait noter au niveau de tous les liens qui pointent vers cette page : rel=no-follow.

Ce n'est pas pour cela que le rel=nofollow a été créé et, comme tu le dis dans ton dernier message, on ne contrôle pas ce que font les autres webmasters..

Sans indiscrétions, pourquoi autant d'acharnement à faire disparaitre ces pages ?
Elles ne dérangent apparemment pas plus que ca !?

C'est aussi mon avis pour mes sites, mais il y a d'autres points de vue.

Pour le référencement, cela ne présente aucun intérêt de faire disparaître des adresses de pages des résultats de recherche. Mais certains peuvent, pour certaines pages, avoir un souci de discrétion. Il existe des techniques pour limiter l'accès au contenu des pages, mais on se dit aussi parfois que si les hackers ignorent l'existence d'un répertoire, il est encore mieux protégé.

Jean-Luc

Remi · 9 Décembre 2005

Pour Google, je pense que le formulaire de suppression de pages permet de supprimer complètement les adresses désignées dans les résultats de recherche.

Pour cette procédure, il faut que les pages retournent un 404.

Pour le référencement, cela ne présente aucun intérêt de faire disparaître des adresses de pages des résultats de recherche.

<{POST_SNAPBACK}>

Comment feriez-vous avec une centaine de pages d'images en gros plan ?

(contenus très réduits et identiques + titres proches voire identiques)

Au début, je laissais Google les indexer et tout passait en "pages ignorées"... et je me demande toujours si Google ne fait pas un bête ratio "nb de pages ignorées / nb de pages total", un ratio qui ne me semblerait pas idiot de faire entrer dans le calcul de l'intérêt global d'un site.

Cendrillon · 9 Décembre 2005

Sans indiscrétions, pourquoi autant d'acharnement à faire disparaitre ces pages ?
Elles ne dérangent apparemment pas plus que ca !?

cela peut parfois éviter les duplicat content ... une page et la même en version imprimable sont peu différentes ... ce serait quand même dommage de perdre la page de contenu au profit de la version imprimable par exemple ...

Modifié 9 Décembre 2005 par cendrillon

**Jeanluc** · 9 Décembre 2005

Comment feriez-vous avec une centaine de pages d'images en gros plan ?
(contenus très réduits et identiques + titres proches voire identiques)

Si tu penses que l'indexation du contenu de ces pages peut nuire au référencement des autres, tu les places dans un répertoire exclu par robots.txt. Tu évites en même temps un gaspillage de bande passante. Je n'imagine pas que l'emploi de robots.txt puisse dévaloriser le site aux yeux de Google.

A mon avis, que ces pages (exclues par robots.txt) apparaissent dans des résultats de Google sans description ni cache ne donne pas une mauvaise image aux visiteurs. Au pire, le visiteur ne remarque pas la page. Peut-être peut on prévoir un moyen simple de passer de ces pages à la page d'accueil du site pour récupérer un maximum de visiteurs.

Jean-Luc

Cendrillon · 9 Décembre 2005

Au début, je laissais Google les indexer et tout passait en "pages ignorées"... et je me demande toujours si Google ne fait pas un bête ratio "nb de pages ignorées / nb de pages total", un ratio qui ne me semblerait pas idiot de faire entrer dans le calcul de l'intérêt global d'un site.

<{POST_SNAPBACK}>

Tant qu'elles ne sont pas en "résultats compémentaires" cela n'a pas d'importance ...

en fait les pages sont déclarées ignorées sur une page de résultat lorsque les snipets ont un taux de similaritéélevé (plus de 70%) ... les snipets étant construit dynamiquement en fonction de la requete, le fait qu'elles sortent en pages ignorées n'est souvent le cas que pour la commande site ... ce qui ne veut pas dire qu'elles sortiront ignorées sur une vrai requete ...

Remi · 9 Décembre 2005

D'accord pour les snippets, mais n'y a t-il de risques au niveau de duplicate éventuels ?

Par exemple, comment faites-vous avec les blogs genre Dotclear, où une même page est accessible par 2 ou 3 URL différentes ?

Vous laissez Google indexer les 3 ?

Moi je mets les autres URL en noindex...

...mais bon, peut-être est-ce inutile (surtout que si ça se trouve, je suis le seul à faire cela )

Cendrillon · 9 Décembre 2005

je voulais juste préciser qu'il fallait veiller à bien faire la distinction etre similarité de pages (qui conduit à un duplicate content et très souvent à un "résultat complémentaire") et similarité de snipet qui conduit à mettre la page en "page ignorée" pour une requete donnée ...

quant aux pages d'images avec peu de contenu (et bien souvent des titres et descriptions très semblables à qq mots près) tant qu'elles restent en pages ignorées sur la requete "site" (mais ne passent pas en "résultats complémentaires), ce n'est pas bien génant et ne veut de toute façon pas dire qu'elles ne sortiront pas sur une autre requete que "site" (que tapent de toute façon que très rarement les internautes) ...

Modifié 9 Décembre 2005 par cendrillon

chatlumo · 28 Mars 2007

Bonjour,

Est-il possible, avec la balise meta, de choisir de ne suivre que les liens internes (même domaine), et non les liens externes ?

Si la réponse est non (ce qui me semble être le cas), comment puis-je savoir que le visiteur de mon site est Googlebot ? Cela me permettrait de ne pas afficher les liens externes dans ce cas là.

Connexion

robots.txt et META "robots"

Sujets conseillés

Jeanluc

Régis

Remi

Jeanluc

Remi

Jeanluc

Remi

Jeanluc

Remi

Jeanluc

Anonymus

Remi

Anonymus

Remi

Jeanluc

Remi

Cendrillon

Jeanluc

Cendrillon

Remi

Cendrillon

chatlumo

Veuillez vous connecter pour commenter

Contenu similaire

Publicité et robots.txt

Référencement + changement domaine et hébergement

Du ménage dans les urls

Redirection / mise en ligne d'un site updaté

Parcourir

Activité