Galdon Posté 18 Mai 2010 Partager Posté 18 Mai 2010 Bonjour, En regardant mes logs, je me suis aperçu que Googlebot explore énormément de pages (plusieurs centaines/jour, presque un millier) sans intérêt sur mon forum phpBB, comme la liste des membres. Voici un échantillon des URL visitées : /memberlist.php?sk=c&sd=d&first_char=j&first_char=/memberlist.php?sk=c&sd=d&first_char=f&first_char=n /memberlist.php?sk=c&sd=d&first_char=j&first_char=z /memberlist.php?sk=c&sd=d&first_char&mode=searchuser&start=500 /memberlist.php?sk=m&sd=d&mode=searchuser&start=500 /memberlist.php?sk=c&sd=d&first_char=l&first_char=w /memberlist.php?mode=searchuser&start=675&sk=a&sd=d&first_char /memberlist.php?sk=c&sd=d&first_char=k&first_char=m /memberlist.php?sk=d&sd=d&mode=searchuser&start=500 /memberlist.php?sk=a&sd=d&first_char&start=400 Je souhaite interdire ces pages aux robots avec le fichier robots.txt. A ma connaissance, la règle Disallow ne permet d'exclure que des repertoires ou des fichiers spécifiques. Dans mon cas, il n'y a pas d'URL précise puisque memberlist.php est une page dynamique qui prend pas mal de paramètres GET donc ça fait un nombre d'URL différentes monstrueux. Et ce que si je mets ce code dans robots.txt ça va marcher, peu importe les paramètres en URL : User-agent: *Disallow: /memberlist.php ? Merci Lien vers le commentaire Partager sur d’autres sites More sharing options...
Jeanluc Posté 18 Mai 2010 Partager Posté 18 Mai 2010 Bonjour, A ma connaissance, la règle Disallow ne permet d'exclure que des repertoires ou des fichiers spécifiques. Ce n'est pas exact. robots.txt ne sait pas ce qu'est un répertoire ou un fichier. Pour robots.txt, il n'y a que des "débuts d'URL". Donc le code que tu proposes va interdire l'accès à toute URL commençant par /memberlist.php, par exemple: - /memberlist.php - /memberlist.php?abc=123 - /memberlist.php5 - ... En un mot, ça convient pour interdire l'accès à toutes les variantes que tu as indiquées. Jean-Luc Lien vers le commentaire Partager sur d’autres sites More sharing options...
Galdon Posté 18 Mai 2010 Auteur Partager Posté 18 Mai 2010 Ok, merci beaucoup pour cette précision, ça répond à toutes mes interrogations. Lien vers le commentaire Partager sur d’autres sites More sharing options...
Cariboo Posté 19 Mai 2010 Partager Posté 19 Mai 2010 Par contre c'est une très mauvaise idée de placer autant de pages dans un robots.txt !!! Tu vas produire un effet de bord considérable. Je te conseille plutôt, si tu ne veux pas toucher au code ou faire des choses compliquées d'utiliser la fonctionnalité "traitement des paramètres" que l'on trouve dans Google Webmaster Tools. Tu déclares les paramètres qui ne servent à rien pour identifier un contenu et le tour est joué. Après tu peux essayer de rediriger certaines syntaxes d'urls vers une url canonique, ou utiliser le link rel=canonical pour les duplicates d'urls. Mais utiliser le robots.txt éliminer le duplicate d'urls : c'est souvent pas bon pour le référencement (l'explication technique : tu crées des "dangling pages"). Lien vers le commentaire Partager sur d’autres sites More sharing options...
Galdon Posté 25 Mai 2010 Auteur Partager Posté 25 Mai 2010 Merci pour cette info. Seulement, passer par Google Webmaster Tools ne résoudra le problème que pour Goooglebot, pas pour les autres moteurs. Et puis j'ai remarqué, dans les logs, que depuis que Googlebot indexe des tonnes de memberlist.php, il indexe beaucoup moins de pages de contenu (topicXX.html) par jour. En plus, il y a quelques mois j'avais environ 2000 pages indexées pour le forum, et 2500 pour le site. Et aujourd'hui, j'en ai 1950 pour le forum et 567 sur le site (le site a été touché en premier par ce problème de "pollution". Donc quelque chose me dit qu'il ne va pas tarder à arriver la même chose au forum, alors je préfère anticiper. Lien vers le commentaire Partager sur d’autres sites More sharing options...
campagne Posté 12 Juin 2010 Partager Posté 12 Juin 2010 Moi j'écouterais le conseil de Cariboo sur les dangling pages (pages cul de sac). J'ai l'impression qu'en avril, en ce qui me concerne en tous cas, Google a fait du tri dans les pages qu'il décide de garder pour un site : 3/4 des pages ont été supprimées à cette période sur mon site. Et ce sont des pages statiques sans duplicate, avec du contenu sur chaque. Il ne faut pas forcément voir un rapport entre les pages inutiles indexées et les pages utiles de ton site désindexées... c'est vrai que les paramètres dans gwt sont conçus pour ce que tu veux faire, plus que le robots.txt et c'est Google qui le propose ! Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant