Interdire des pages dynamiques dans robots.txt

Galdon · 18 Mai 2010

Bonjour,

En regardant mes logs, je me suis aperçu que Googlebot explore énormément de pages (plusieurs centaines/jour, presque un millier) sans intérêt sur mon forum phpBB, comme la liste des membres.

Voici un échantillon des URL visitées :

/memberlist.php?sk=c&sd=d&first_char=j&first_char=
/memberlist.php?sk=c&sd=d&first_char=f&first_char=n

/memberlist.php?sk=c&sd=d&first_char=j&first_char=z

/memberlist.php?sk=c&sd=d&first_char&mode=searchuser&start=500

/memberlist.php?sk=m&sd=d&mode=searchuser&start=500

/memberlist.php?sk=c&sd=d&first_char=l&first_char=w

/memberlist.php?mode=searchuser&start=675&sk=a&sd=d&first_char

/memberlist.php?sk=c&sd=d&first_char=k&first_char=m

/memberlist.php?sk=d&sd=d&mode=searchuser&start=500

/memberlist.php?sk=a&sd=d&first_char&start=400

Je souhaite interdire ces pages aux robots avec le fichier robots.txt.

A ma connaissance, la règle Disallow ne permet d'exclure que des repertoires ou des fichiers spécifiques.

Dans mon cas, il n'y a pas d'URL précise puisque memberlist.php est une page dynamique qui prend pas mal de paramètres GET donc ça fait un nombre d'URL différentes monstrueux.

Et ce que si je mets ce code dans robots.txt ça va marcher, peu importe les paramètres en URL :

User-agent: *
Disallow: /memberlist.php

?

Merci

**Jeanluc** · 18 Mai 2010

Bonjour,

A ma connaissance, la règle Disallow ne permet d'exclure que des repertoires ou des fichiers spécifiques.

Ce n'est pas exact. robots.txt ne sait pas ce qu'est un répertoire ou un fichier. Pour robots.txt, il n'y a que des "débuts d'URL". Donc le code que tu proposes va interdire l'accès à toute URL commençant par /memberlist.php, par exemple:

- /memberlist.php

- /memberlist.php?abc=123

- /memberlist.php5

- ...

En un mot, ça convient pour interdire l'accès à toutes les variantes que tu as indiquées.

Jean-Luc

Galdon · 18 Mai 2010

Ok, merci beaucoup pour cette précision, ça répond à toutes mes interrogations.

**Cariboo** · 19 Mai 2010

Par contre c'est une très mauvaise idée de placer autant de pages dans un robots.txt !!!

Tu vas produire un effet de bord considérable.

Je te conseille plutôt, si tu ne veux pas toucher au code ou faire des choses compliquées d'utiliser la fonctionnalité "traitement des paramètres" que l'on trouve dans Google Webmaster Tools. Tu déclares les paramètres qui ne servent à rien pour identifier un contenu et le tour est joué.

Après tu peux essayer de rediriger certaines syntaxes d'urls vers une url canonique, ou utiliser le link rel=canonical pour les duplicates d'urls.

Mais utiliser le robots.txt éliminer le duplicate d'urls : c'est souvent pas bon pour le référencement (l'explication technique : tu crées des "dangling pages").

Galdon · 25 Mai 2010

Merci pour cette info.

Seulement, passer par Google Webmaster Tools ne résoudra le problème que pour Goooglebot, pas pour les autres moteurs.

Et puis j'ai remarqué, dans les logs, que depuis que Googlebot indexe des tonnes de memberlist.php, il indexe beaucoup moins de pages de contenu (topicXX.html) par jour.

En plus, il y a quelques mois j'avais environ 2000 pages indexées pour le forum, et 2500 pour le site.

Et aujourd'hui, j'en ai 1950 pour le forum et 567 sur le site (le site a été touché en premier par ce problème de "pollution".

Donc quelque chose me dit qu'il ne va pas tarder à arriver la même chose au forum, alors je préfère anticiper.

campagne · 12 Juin 2010

Moi j'écouterais le conseil de Cariboo sur les dangling pages (pages cul de sac).

J'ai l'impression qu'en avril, en ce qui me concerne en tous cas, Google a fait du tri dans les pages qu'il décide de garder pour un site : 3/4 des pages ont été supprimées à cette période sur mon site. Et ce sont des pages statiques sans duplicate, avec du contenu sur chaque. Il ne faut pas forcément voir un rapport entre les pages inutiles indexées et les pages utiles de ton site désindexées...

c'est vrai que les paramètres dans gwt sont conçus pour ce que tu veux faire, plus que le robots.txt et c'est Google qui le propose !

Connexion

Interdire des pages dynamiques dans robots.txt

Sujets conseillés

Galdon

Jeanluc

Galdon

Cariboo

Galdon

campagne

Veuillez vous connecter pour commenter

Contenu similaire

Publicité et robots.txt

Du ménage dans les urls

Référencement + changement domaine et hébergement

Redirection / mise en ligne d'un site updaté

Parcourir

Activité