equids Posté 10 Août 2010 Partager Posté 10 Août 2010 (modifié) Salut à tous, je voudrais savoir si, sur un site qui n'a pas de page à "cacher" aux moteurs, il est nécessaire de placer un fichier robots.txt ? Si c'est le cas, que doit il comprendre ? être une page vide ? Ou du style : User-agent: *Allow: / Merci Modifié 10 Août 2010 par equids Lien vers le commentaire Partager sur d’autres sites More sharing options...
Jeanluc Posté 10 Août 2010 Partager Posté 10 Août 2010 Bonjour, Premièrement, un site peut parfaitement se passer de robots.txt. Mais c'est une bonne idée de mettre un robots.txt qui autorise l'accès à toutes les adresses: User-agent: *Disallow: Je préfère cette version à celle que tu indiques parce que la directive Allow n'est pas standard et qu'il vaut donc mieux l'éviter. Le seul bénéfice d'un robots.txt qui n'interdit rien est d'éviter de remplir le log d'erreurs Apache avec des lignes qui disent que robots.txt n'a pas pu être lu (une telle ligne est ajoutée à chaque fois qu'un moteur de recherche vérifie l'existence de ce fichier). Jean-Luc Lien vers le commentaire Partager sur d’autres sites More sharing options...
equids Posté 11 Août 2010 Auteur Partager Posté 11 Août 2010 Merci de ta réponse, j'ai copié/collé le code que Google donnait dans son Webmaster Tools. Tous les moteurs ne comprennent pas l'argument "Allow" c'est ça ? Lien vers le commentaire Partager sur d’autres sites More sharing options...
Jeanluc Posté 11 Août 2010 Partager Posté 11 Août 2010 C'est bien ça. Je suppose que Google se préoccupe uniquement de l'effet du fichier pour ses robots! Maintenant dans ce cas de robots.txt qui autorise la visite de toutes les adresses, c'est sans conséquence. C'est critique dans certains robots.txt plus complexes. Le pire est que, parmi les moteurs qui acceptent "Allow", ils ne suivent pas tous les mêmes règles pour gérer les cas d'URL qui sont à la fois concernées par un "Allow" et par un "Disallow". Jean-Luc Lien vers le commentaire Partager sur d’autres sites More sharing options...
equids Posté 11 Août 2010 Auteur Partager Posté 11 Août 2010 Oulla, ça peut être quoi comme cas ? Une partie de la page seulement doit être indéxable par les moteurs ? Lien vers le commentaire Partager sur d’autres sites More sharing options...
johnny-the-fox Posté 12 Août 2010 Partager Posté 12 Août 2010 jean-luc a raison, et si tu n'a rien a (cacher) le fichier robot te servira juste de guide aux robots des moteurs Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remi Posté 14 Août 2010 Partager Posté 14 Août 2010 Quand on désire donner l'accès à tout, on peut aussi mettre User-agent: *Disallow: /repertoire_bidon et accessoirement on peut ainsi repérer dans ses logs les "indélicats" (ceux qui vont essayer d'aller lire ce qui est interdit) Lien vers le commentaire Partager sur d’autres sites More sharing options...
campagne Posté 16 Août 2010 Partager Posté 16 Août 2010 ça c'est bien, merci Remi. Moi je mets une ligne qui indique le chemin de mon sitemap : Sitemap: http://www.luxe-campagne.fr/sitemap.xml Je ne sais pas trop si c'est vraiment utile... Lien vers le commentaire Partager sur d’autres sites More sharing options...
KaRaK Posté 17 Août 2010 Partager Posté 17 Août 2010 En tout cas cette syntaxe est officiellement autorisée. Source : http://www.sitemaps.org/fr/protocol.php#submit_robots Lien vers le commentaire Partager sur d’autres sites More sharing options...
Bigb06 Posté 18 Août 2010 Partager Posté 18 Août 2010 Bonjour, Premièrement, un site peut parfaitement se passer de robots.txt. Mais c'est une bonne idée de mettre un robots.txt qui autorise l'accès à toutes les adresses: User-agent: *Disallow: Je préfère cette version à celle que tu indiques parce que la directive Allow n'est pas standard et qu'il vaut donc mieux l'éviter. Le seul bénéfice d'un robots.txt qui n'interdit rien est d'éviter de remplir le log d'erreurs Apache avec des lignes qui disent que robots.txt n'a pas pu être lu (une telle ligne est ajoutée à chaque fois qu'un moteur de recherche vérifie l'existence de ce fichier). Jean-Luc Pour ma part je préfère systématiquement déclarer un fichier robots.txt. On m'a dit la même chose mais bizarrement l'indexation sur Google ne se faisait pas sans. Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remi Posté 19 Août 2010 Partager Posté 19 Août 2010 Pour ma part je préfère systématiquement déclarer un fichier robots.txt. On m'a dit la même chose mais bizarrement l'indexation sur Google ne se faisait pas sans. Si l'indexation s'est produite alors qu'un fichier robots.txt venait d'être ajouté, c'est certainement un hasard... Il y a des millions de sites indexés sans robots.txt (je dirais même, au pif, qu'il doit y avoir plus de site sans robots.txt qu'avec). Il faut bien reconnaître que, dans la plupart des cas, le fichier robots.txt ne sert pas à grand chose. Lien vers le commentaire Partager sur d’autres sites More sharing options...
Patrick Posté 19 Août 2010 Partager Posté 19 Août 2010 Je ne suis pas tout à fait d'accord avec toi Remi. Le fichier robots.txt sert au minimum à : économiser de la bande passante (les bots le recherche systématiquement à chaque passage sur ton site) déclarer ton sitemap à l'ensemble des moteurs l'exploitant ++ Patrick Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remi Posté 19 Août 2010 Partager Posté 19 Août 2010 Je n'ai pas dit qu'il ne faut pas mettre de robots.txt... Je tentais d'expliquer pourquoi beaucoup de sites n'en ont toujours pas : parce que pour eux, l'intérêt est quasi-nul. Même pour nous, on peut se poser des questions... Cacher un répertoire non-linké (genre archives), c'est évident qu'il faut éviter... A une époque, on l'utilisait pour bloquer certains robots. Mais maintenant, ils sont si nombreux... Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant