Aller au contenu

Sujets conseillés

Posté

Bonjour,

Google indexe des répertoires malgré les instructions du fichier robots.txt :

www.territorial.fr/robots.txt

Les autres moteurs ont respecté les instructions.

Est-ce qu'il y aurait une subtilité qui m'aurait échappé ?

Merci pour vos conseils :rolleyes:

klaroo

Emploi fonction publique

Posté

Google respecte généralement bien les limitations robots.txt .

Par contre, si tu as dans un premier temps laissé l'accès libre à un répertoire, puis ensuite limité l'accès par une instruction robots.txt (ou par un 'noindex'), là il va mettre des mois à enlever les pages de l'index.

D'une manière générale, Google est très lent pour enlever des pages de l'index.

Posté

Salut,

perso je dirais plutot que Google ne respecte pas les interdictions du fichier robots.txt, j'en suis meme certains étant donné qu'il est passé outre meme en ayant mis mes robots.txt dès le lancement de mes sites.

Apparement le seul moyen d'empecher Google d'indexer des pages est de mettre un meta :

<meta name="robots" content="noindex,nofollow">

Et si tu rajoute ce tag maitenant tu peux attendre plusieurs semaines avant de voir tes pages disparaitre de l'index de Google ... moi ca fait 2 semaines que j'attend déjà :)

A +

Posté

Si on en croit Google – Informations pour Webmasters, Google respecte robots.txt. Cela ne veut pas dire que Google ne reprend pas les URL concernées dans son index. Pour cela, il suffit que Google les trouvent mentionnées dans un autre site. J'ai l'exemple d'un site qui fait un lien vers mon site mais en indiquant, par erreur, une URL d'une page qui n'a jamais existé. Cette URL se retrouve avec site: dans la liste des "pages référencées" de mon site!

C'est probablement, pour cela, que la seule solution pour être sûr qu'une page ne soit pas indexée est l'emploi de la commande META avec l'option noindex, comme l'a indiqué A à Z Fleurs.

Jean-Luc

Posté

Pour être déréférencé rapidement de google, il faut mettre en place le fichier robot.txt puis aller sur le site de google, il y a un formulaire à remplir pour désindexer un site.

Dans mon souvenir, c'était assez rapide, moins de 2 jours...

Posté

Même constat, Google ne respecte plus le standard Robots.txt :angry:

Mais après tout ça peut se comprendre. On ne passe pas du jour au lendemain à un index de 8 milliards de documents sans emmerder au passage quelques milliers de webmasters...

C'est d'autant plus dommage que le Robots.txt était jusqu'à présent la seule méthode d'exclusion des robots pouvant être qualifiée de standard. Les balises Meta n'avaient jamais fonctionné partout.

Seule méthode fiable à 100% dorénavant, bannir les vilains robots par htaccess dans les répertoires à protéger.

Posté (modifié)
il y a un formulaire à remplir pour désindexer un site.

Dans mon souvenir, c'était assez rapide, moins de 2 jours...

Le formulaire ne marche que pour des pages qui n'existent plus.

Pour déréférencer une page, le problème reste entier.

Ce que dit Stéphane m'a étonné, parce j'avais l'impression que robots.txt marchait mieux que les META : moi, je ne vois pas passer le robot dans des répertoires interdits.

Par contre pour déréférencer certaines pages (des gros plan d'images, parce que j'ai peur qu'il considère toutes ces pages comme du duplicate content), j'ai voulu ruser pour aller plus vite et je les ai renommées et mis les nouvelles en META "noindex,follow". Et bien, non seulement il a mis plusieurs mois pour m'enlever les pages en 404, mais en plus il m'a indexé quand même les nouvelles.

Peut-être que mon erreur est de mettre 'follow'... Je ne sais pas pourquoi j'ai mis follow d'ailleurs... :unsure:

Modifié par Remi
Posté

C'est marrant, j'en parlais il y a de cela un peu plus d'un an, en posant la question : Et si les robots ne respectaient plus les fichiers robots...

Bon.. Il n'était déjà pas évident de parler, aux novices, des fichiers robots.txt, il faudra maintenant leur parler des fichiers htaccess.. :D

Posté

Dan, c'est surprenant qu'il n'y ait 'que' 220 000 robots d'indexés !!

Petit Ourson, effectivement, tous les moteurs indexent les robots.tx, ne serait ce pour savoir ce qu'il y a dedans,

Par contre, il suffit de faire domaine.com/robots.txt pour connaitre le 'robots.txt' de n'importe quel site.

Attention : Ce fichier n'est en rien une protection contre quoi que ce soit !! C'est une indication !! N'importe qui a accès à ce fichier, et mettre des répertoires 'secrets' dedans est une c..., car c'est 'pointer du bout du doigt ces mêmes répertoires.

!!

Posté (modifié)

Bon, ça m'apprendra à ne pas répondre trop vite... ;)

C'est tout de même bizarre ce truc.

Vous avez remarqué les titres?

Le fait qu'un robots.txt se retrouve indexé n'est-il pas le résultat d'une erreur quelconque? Par exemple, j'ai vu un site où un rewriting trop général perturbait l'accès à robots.txt.

Modifié par Remi
Posté

Imagines que le crawler soit configuré pour ne pas respecter le robots.txt.

Il récupère le robots.txt, et a ainsi le nom des répertoires confidentiels à crawler.

Donc, en quelque sorte, il passe outre le rewriting, qui n'est généralement pas concu pour interdire l'accès aux répertoires si on tape la requète directement.

Posté

En complément des précédentes réponses :

Tu peux également utiliser la balise suivante :

<meta name="robots" content="noindex,noarchives">

"noarchives" sera pris en compte par Google uniquement. Cela permettra aux pages concernées de ne pas être incluses dans le système de cache du moteur et donc en facilitera la désindexation.

Cordialement.

Posté

Adifco Référencement,

Il me semble qu'il faut écrire "noarchive" plutôt que "noarchives": http://www.google.com/webmasters/3.html

Cette instruction est-elle vraiment utile à partir du moment ou "noindex" indique qu'il ne faut pas indexer la page?

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...