MustyAlien Posté 14 Juillet 2005 Posté 14 Juillet 2005 Bonjour à tous j'ai beaucoup entendu parlé des fichiers "robots.txt", j'ai fais une recherche sur ce forum, mais n'explique concrètement ce qu'il faut et ce qu'on peut mettre dans un fichier "robots.txt"... Quelqu'un pourrait me faire un topo sur les différentes commande à mettre dans ce genre de fichier ? si il y en a 50 000, juste les principales ainsi qu'une tite explication si possible... ? Merci d'avance
Dudu Posté 14 Juillet 2005 Posté 14 Juillet 2005 Bonjour, Tu peux choisir de ne te pas te faire indexer par tel ou tel robot. Exemple: mettons que tu n'aimes pas MSN. Tu peux faire en sorte avec un fichier robots.txt que tous les bots viennent sauf précisément celui d'MSN. Tu peux aussi choisir de ne pas faire indexer un répertoire en particulier sur ton site (quel que soit le bot). Exemple: aucune utilité de faire indexer le répertoire http:/serveur.com/statistiques/ Par définition, les infos de ce répertoire te sont destinées mais ne doivent pas être vues du grand public. Pour plus d'infos, LE site qui répond à toutes les questions (en anglais uniquement par contre): http://www.robotstxt.org/ Pour information, voici le code à mettre pour mes 2 exemples User-agent: msnbotDisallow: /User-agent: *Disallow: /statistiques/ Sinon, tu peux regarder sur à peu près n'importe quel site à quoi ressemble le fichier robots.txt, tenter de le comprendre, puis t'en inspirer Bon courage
MustyAlien Posté 15 Juillet 2005 Auteur Posté 15 Juillet 2005 Merci Dudu, ça ne m'a pas l'air bien compliqué en fin de compte je vais m'y ateler
MustyAlien Posté 15 Juillet 2005 Auteur Posté 15 Juillet 2005 Je viens de lire un peu sur le site, ça m'a l'air assez simple, donc si j'ai bien compris : User-agent: * <== tous les robots Disallow: <== tout est indexé Disallow: / <== rien est indexé Disallow: /temp <== le sous-domaine temp n'est pas indexé Disallow: /temp/ <== le dossier temp n'est pas indexé Je sais qu'on ne met pas tout ça, c'est juste pour regrouper tout, j'ai bon là ? ou y a un truc que je n'ai pas compris ? Dans le cas où j'ai juste, y a un truc que je me demande, si je dois dire que le dossier "pouic" du sous-domaine "glop" ne doit pas être indexé, comment peux t'on l'écrire ? Merci d'avance
MS-DOS_1991 Posté 15 Juillet 2005 Posté 15 Juillet 2005 (modifié) Salut Je dirais User-agent: *Disallow: /glop/pouic/ Modifié 15 Juillet 2005 par MS-DOS_1991
MustyAlien Posté 15 Juillet 2005 Auteur Posté 15 Juillet 2005 (modifié) ah ben là si je suis ton raisonnement, ça devrais correspondre au au dossier "pouic" qui se trouve dans le dosier "glop" de la racine... ce qui devrais faire : http://www.monsite.com/glop/pouic non ? Mais je t'avouerais que je n'y connais rien, et que j'apprends, donc tu as peut-être raison En fait ma question porte sur : http://glop.monsite.com/pouic/ Je me suis peut-être mal expliqué, ça m'arrive souvent lol ARF ça a mis des liens sur les adresses web, faites pas attention aux liens, j'ai mis n'importe quoi pour l'exemple Modifié 15 Juillet 2005 par MustyAlien
plusdegolf Posté 7 Septembre 2005 Posté 7 Septembre 2005 Petite question simple: pour éviter d'avoir dans mes logs des 404 sur le fichier robots.txt, je l'ai créé avec seulement la ligne User-agent: * Est-ce correct pour tout référencer , Merci Rémi
MustyAlien Posté 7 Septembre 2005 Auteur Posté 7 Septembre 2005 (modifié) corrigé moi si je me trompe mais normalement c'est : User-agent: *Disallow: pour tous indexé Modifié 7 Septembre 2005 par MustyAlien
Remi Posté 8 Septembre 2005 Posté 8 Septembre 2005 Oui, il faut toujours au moins une ligne Disallow après chaque ligne User-Agent pour que ce soit valide. C'est vrai que la syntaxe Disallow tout court est un peu bizarre (et fait peur) mais de toutes façons, en pratique, on trouve toujours au moins un fichier à interdire...
Nissone Posté 6 Novembre 2005 Posté 6 Novembre 2005 User-agent: * <== tous les robotsDisallow: <== tout est indexé <{POST_SNAPBACK}> Bonjour, je souhaite savoir quel est l'intérêt de d'indiquer à tous les robots de tout indexer ? N'est-ce pas le comportement par défaut ? Y a-t-il un "plus" à ajouter le robots.txt ?
smile Posté 7 Novembre 2005 Posté 7 Novembre 2005 En effet il n'y a pas d'interet à mettre un robots.txt si tu autorises l'indexation à l'ensemble du site. MustyAlien souhaiterai qu'il n'y ait pas d'ecriture de logs apache lorsqu'il n'ya pas de robots.txt (il est mentionné 404 dans les logs) Mais plutôt configurer apache pour qu'il n'inscrive pas 404 serait sans doute plus judicieux
Nissone Posté 11 Novembre 2005 Posté 11 Novembre 2005 Merci pour ta réponse, Smile. Euh... je n'ai pas tout compris à ton histoire d'Apache ! Sinon, en cherchant des infos à propos du robots.txt, une autre question m'est venue : j'ai vu qu'on pouvait aussi mettre ce robot sous la forme d'une balise meta. Qu'elle différence cela fait ? Qu'est-ce qui est le mieux ? Qu'est-ce que ça change ? (Est-ce qu'il faut, du coup, mettre la balise sur chaque page ?)
thick Posté 11 Novembre 2005 Posté 11 Novembre 2005 Merci pour ta réponse, Smile. Euh... je n'ai pas tout compris à ton histoire d'Apache ! Sinon, en cherchant des infos à propos du robots.txt, une autre question m'est venue : j'ai vu qu'on pouvait aussi mettre ce robot sous la forme d'une balise meta. Qu'elle différence cela fait ? Qu'est-ce qui est le mieux ? Qu'est-ce que ça change ? (Est-ce qu'il faut, du coup, mettre la balise sur chaque page ?) <{POST_SNAPBACK}> Oublie la META et garde le robots.txt car c'est le premier fichier que les robots vont venir chercher. Pas de robots.txt = pleins d'erreurs 404. Si ça peut aider, Yooda a un outil sympa pour les robots.txt http://www.yooda.com/outils_referencement/robots_txt.php
Remi Posté 11 Novembre 2005 Posté 11 Novembre 2005 Yooda ne semble plus accepter de nouveaux utilisateurs (ne répond pas aux demandes de mot de passe, ni aux messages tout court d'ailleurs)
Nissone Posté 11 Novembre 2005 Posté 11 Novembre 2005 Oublie la META et garde le robots.txt car c'est le premier fichier que les robots vont venir chercher. Pas de robots.txt = pleins d'erreurs 404 <{POST_SNAPBACK}> Merci thick. Euh... c'est que je suis curieuse, moi ! Pourquoi la balise META n'est pas une bonne chose ? Mais surtout, pourquoi l'absence de robots.txt provoque des 404 ? Je n'ai, jusqu'à maintenant, mis des robots.txt sur aucun de mes sites mais je n'ai pas remarquer des problèmes de 404... Tu peux m'en dire plus ? <edit> J'apporte un élément de réponse à ma première question : pour la balise, on est obligée de la mettre sur toutes les pages du site ! </edit>
Jeanluc Posté 11 Novembre 2005 Posté 11 Novembre 2005 Mais surtout, pourquoi l'absence de robots.txt provoque des 404 ? Je n'ai, jusqu'à maintenant, mis des robots.txt sur aucun de mes sites mais je n'ai pas remarquer des problèmes de 404... Tu peux m'en dire plus ? Bonjour, Ces "erreurs 404" ne sont en rien nuisibles au référencement. Si le fichier robots.txt n'existe pas, quand un robot demande ce fichier, le serveur web (Apache ou n'importe quel autre) répond qu'il n'existe pas au moyen du code "HTTP 404". Cela n'indique pas un comportement erroné du serveur ou un bug. Au contraire, cela fait gagner du temps au robot qui sait ainsi qu'il a le droit de visiter tout le site sans se casser la tête (de robot). Ces "erreurs 404" apparaissent dans les statistiques. Certains trouvent cela gênant. Mais si jusqu'à présent, ton site se passe de robots.txt, il n'y a certainement pas de raison d'en ajouter un. Jean-Luc
Anonymus Posté 12 Novembre 2005 Posté 12 Novembre 2005 Pour la balise meta, elle ne sert à rien. Les moteurs de recherche que j'installe ne prennent pas en compte les balises meta, alors qu'ils prennent tous en compte le fichier robots.txt. Donc, inutile de s'attarder sur les balises meta. Ceci dit, ca ne va pas bloquer le moteur si un site n'a pas de robots.txt, de même que ca ne va pas déranger ton site si un moteur demande un fichier (le robots.txt ?) qui n'existe pas. D'un coté, ca répond absent, de l'autre, ca marque une ligne de 'log'. Cependant, tu peux désirer faire les choses 'proprement', et combler un vide. Ca permettra au moteur d'analyser un fichier.. vide
Remi Posté 12 Novembre 2005 Posté 12 Novembre 2005 Pour ma part, j'ai toujours été passablement dépité de voir la commande 'site: ' de Google me lister allègrement toutes mes pages en 'meta noindex'... En revanche, j'ai comme l'impression qu'il m'est impossible de faire sortir ces pages sur une requête normale. Tout de même... Mais c'est vrai que 'robots' est plus "puissant" puisque que l'on dit au robot "ne va pas là" (ce qui ne l'empêche pas toujours d'y aller d'ailleurs)
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant