Cleden Posté 12 Octobre 2004 Posté 12 Octobre 2004 Bonjour, Je laisse quelques permissions à Google pour qu'il visite mon site en profondeur. Cependant, je remarque qu'il indexe (par centaines) des pages inutiles voire préjudiciables pour mes membres. Le nom de ces pages est du type: -www.ouetu.com/index.php?variable=valeur&variable1=valeur1&variable2=valeur2 Existe-t-il une méthode empêchant notre cher googlebot d'indexer ces pages ou, encore, une méthode pour pour qu'il ne suive pas certaines liens ? D'avance merci , Loïc.
Cleden Posté 12 Octobre 2004 Auteur Posté 12 Octobre 2004 Salut Cleden J'ai trouvé ceci sur la FAQ de google, ça permet d'empêcher Googlebot de visiter les pages dynamiques (avec variables). Il suffit de l'inclure dans ton robots.txt. User-agent: GooglebotDisallow: /*? Puisque ton site est rewrité, ça ne devrait pas poser de problèmes, Googlebot continuera à indexer les pages rewritée. Quelqu'un peut confirmer ? Bonne chance à toi, Loïc.
Jeff Posté 12 Octobre 2004 Posté 12 Octobre 2004 (modifié) Salut Cleden, Si on a lu la même FAQ, je cite GG: Pour interdire l'accès de votre site aux robots-explorateurs, vous pouvez installer sur votre serveur le fichier robots.txt. Ce fichier empêche le robot-explorateur de Google (et tout autre robot ou « spider ») de visiter votre site. Le nom d'agent utilisateur (User-agent) de notre robot est « Googlebot ». Googlebot supporte certaines caractéristiques du standard robots.txt : les filtres d'interdiction/Disallow peuvent inclure le caractère * (toute séquence de caractères), et se terminer par le caractère $ (fin du nom). Exemple Pour empêcher Googlebot d'explorer les fichiers à extension « gif », insérez l'instruction suivante dans le fichier robots.txt : User-agent: Googlebot Disallow: /*.gif$ Donc si je comprends bien, cela sert juste à exclure les fichiers en tenant compte de leurs terminaisons; De plus je crois bien qu'il faut terminer dans tous les cas par: $ Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" . Plus de details sur le fichier "robots.txt": http://www.yooda.com/outils_referencement/robots_txt.php Jeff, Modifié 12 Octobre 2004 par Jeff
Cleden Posté 12 Octobre 2004 Auteur Posté 12 Octobre 2004 Merci pour ta réponse, Tout en bas de cette FAQ google, il y a: 12. Comment dois-je procéder pour demander à Googlebot de ne pas explorer les pages de mon site qui sont générées en mode dynamique ? Utilisez le fichier robots.txt suivant : User-agent: Googlebot Disallow: /*? Je n'ai jamais utilisé un tel paramétrage dans mon fichier "robots.txt" . Moi non plus, toutefois, j'ai une confiance aveugle en tout ce qui est en rapport avec Google J'essaie cette manière, je vous signalerai si elle fonctionne. Loïc.
Anonymus Posté 12 Octobre 2004 Posté 12 Octobre 2004 Si tu ne veux pas qu'il indexe ton site, c'est effectivement la meilleure facon. Seulement, il ne va rien indexer du tout ! Si tu ne veux pas qu'il indexe certaines pages, alors il faut placer, dans l'entete de celles ci : <meta name="robots" content="noindex, nofollow"> Ce qui signifie : ne pas indexer, ne pas suivre. De manière générale, une page qui explique bien comment s'y prendre pour ce genre de méta, voire la rédaction d'un fichier 'robots.txt', sans exclure l'ensemble du site +> http://www.toulouse-renaissance.net/c_outi..._robots_txt.htm A.
Cleden Posté 13 Octobre 2004 Auteur Posté 13 Octobre 2004 Ok Anonymus, J'ai opté pour : <? if ($variable == 'valeur' or $variable1=='valeur1'){print '<meta name="robots" content="noindex, nofollow">';}?> Merci pour tes précisions , Loïc.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant