AntiStatic Posté 12 Octobre 2006 Posté 12 Octobre 2006 Salut à tous ! est-ce que quelqu'un serait comment exclure grace à un fichier robots.txt toute une série de pages ayant la même structure de nom. Je m'explique : j'ai quelques dizaines de milliers de pages qui sont nommées ainsi : "mapage-ID_DE_MA_PAGE.html". Elles vont de mapage-1.html à mapage-40000.html et je voudrais toutes les supprimer des index des moteurs de recherche. Mais je me vois mal mettre dans mon robots.txt 40000 lignes d'exclusion :/ Il doit bien y avoir une astuce ? Ensuite, je possède également des pages avec un nom du type : mapage-ID_DE_MA_PAGE-A.html, mapage-ID_DE_MA_PAGE-B.html, mapage-ID_DE_MA_PAGE-C.html, ... et j'aimerais aussi les exclure de la même facon. Y a t'il la possibilité de dire dans le robots.txt : exclut toutes les pages dont le nom commence par "mapage-" par exemple ? Ce la me permettrait de toutes les exclure rapidement ! Merci pour votre aide !
Dan Posté 12 Octobre 2006 Posté 12 Octobre 2006 Googlebot le permet, mais ce n'est pas standard ... Donc si tu veux interdire à GoogleBot l'indexation de ces pages, tu peux utiliser simplement User-Agent: Googlebot Disallow: /mapage-* Voir: http://www.google.com/support/webmasters/b...py?answer=40367
AntiStatic Posté 12 Octobre 2006 Auteur Posté 12 Octobre 2006 Carrement cool ! Merci Dan ! Et juste une autre petite question, à votre avis quelle taille max je peux avoir pour mon fichier robots.txt. Car sinon je viens de tester en faisant une boucle sur les 40000 noms de page et ca me ferait un robots.txt d'environ 1,5Mo ! Ca pourrait passer pour les moteurs ou il n'arriveront pas à tout lire selon vous ?
Dan Posté 12 Octobre 2006 Posté 12 Octobre 2006 A mon avis c'est beaucoup trop long.... et de plus ils vont te bouffer la bande passante. Un fichier robots.txt ne devrait pas dépasser les recommandations pour la taille d'une page, c'est à dire 100K si mes souvenirs sont bons.
Jeanluc Posté 12 Octobre 2006 Posté 12 Octobre 2006 Googlebot le permet, mais ce n'est pas standard ... Donc si tu veux interdire à GoogleBot l'indexation de ces pages, tu peux utiliser simplement User-Agent: Googlebot Disallow: /mapage-* Dan, Je comprends ce que tu veux dire, mais ici on peut obtenir exactement le même effet avec des directives 100% standards, donc comprises par tous les robots de bonne volonté : User-Agent: *Disallow: /mapage- Jean-Luc
AntiStatic Posté 13 Octobre 2006 Auteur Posté 13 Octobre 2006 Bon je vais mettre les 2 comme ca je suis sur Merci les gars !
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant