Est-il possible de mettre des liens absolu dans robots.txt ?

Spark · 11 Avril 2007

Bonjour tout le monde.

J'ai une page qui est à la racine de 2 sous domaines différent et qui contiens la même chose, pour éviter le duplicate je voudrais interdire l'indexation de cette page pour l'un des 2 sous domaines. Les 2 sous domaine partage le même robots.txt alors je me demandais est-ce que l'on peut mettre un lien absolu dans un robots.txt ?

User-agent: *
Disallow: http://en.mondomaine.net/page.php

Merci

Modifié 11 Avril 2007 par Spark

YoyoS · 11 Avril 2007

Salut, pourquoi ne mettrais-tu pas simplement un fichier robots.txt dans le dossier de ton sous domaine avec dedans:

User-agent: *

Disallow: /

Yoyo

Spark · 12 Avril 2007

Salut,

Ca serait suicidaire = 0 référencement. Je ne vais pas condamner le site pour une page. Autant mettre :

Disallow: page.php

Mais je veux que la page soit référencé au moins sur un des 2 sous domaines.

Et sinon quelqu'un sais si on peut ?

Modifié 12 Avril 2007 par Spark

**Régis** · 12 Avril 2007

Bonjour 'Spark',

En tout cas, pour la commande Sitemap du fichier robots.txt, il est préconisé un chemin absolu. Voir ce post de Webmaster Hub - Une directive Sitemap pour robots.txt

**Jeanluc** · 12 Avril 2007

Bonjour,

Les 2 sous domaine partage le même robots.txt

Tu veux dire que [i]http://sousdomaine1.domaine.com/robots.txt et [i]http://sousdomaine2.domaine.com/robots.txt affichent le même fichier robots.txt ?

alors je me demandais est-ce que l'on peut mettre un lien absolu dans un robots.txt ?

On ne peut pas mettre de lien sous la forme [i]http://sousdomaine.domaine.com/lien.html* dans robots.txt, mais il y a sûrement une autre solution à ton problème.

Jean-Luc

P.S. * la seule exception étant la nouvelle directive Sitemap: comme rappelé par Régis

Spark · 12 Avril 2007

En tout cas, pour la commande Sitemap du fichier robots.txt, il est préconisé un chemin absolu. Voir ce post de Webmaster Hub - Une directive Sitemap pour robots.txt

Je ne connaissais pas Sitemap, est-ce qu'il est utilisé par tous les moteurs de recherche ? Est-ce que ça peut résoudre mon problème ?

Tu veux dire que [i]http://sousdomaine1.domaine.com/robots.txt et [i]http://sousdomaine2.domaine.com/robots.txt affichent le même fichier robots.txt ?

On ne peut pas mettre de lien sous la forme [i]http://sousdomaine.domaine.com/lien.html* dans robots.txt, mais il y a sûrement une autre solution à ton problème.

Exactement oui, le contenu change grace à $_SERVER['HTTP_HOST'], c'est pour changer la langue du site. Mais une des pages à le même contenu, c'est un fichier xml d'ailleurs ! Je l'avais presque oublié !! Comment se référence ce genre de fichier, avec l'xls ça parait être une page comme une autre, mais le code source est bien en xml ... .

Est-il possible de conditionner les indications du fichier robots.txt en fonction de $_SERVER['HTTP_HOST'] ? Comme je l'ai fais dans les fichier PHP ?

**Jeanluc** · 12 Avril 2007

Le sitemap ne permet pas d'interdire l'indexation de certaines pages.

Par contre, tu peux parfaitement conditionner le contenu de robots.txt par du PHP en fonction de $_SERVER['HTTP_HOST'] (ne pas oublier que "type MIME" doit être "text/plain").

Jean-Luc

Sebastien · 12 Avril 2007

Ton page.php est un fichier différent pour chaque sous-domaine ? Si oui tu as aussi le protocole d'exclusion par les meta http://www.robotstxt.org/wc/exclusion.html#meta (et cette meta peut etre générée dynamiquement en testant quel sous-domaine est utilisé sinon, enfin je suppose ne sachant pas programmer)

**Dan** · 12 Avril 2007

Une simple règle de réécriture conditionnelle permet de présenter un fichier robots.txt différent selon le domaine.

Un permettant l'indexation, l'autre non....

**Jeanluc** · 12 Avril 2007

tu as aussi le protocole d'exclusion par les meta

Cette technique n'est pas utilisable avec un fichier texte comme robots.txt.

Jean-Luc

Sebastien · 12 Avril 2007

Bien sûr que non, puisque il s'agit d'une alternative au protocole robots.txt mais cette balise meta peut intégrer le page.php

Spark · 12 Avril 2007

Par contre, tu peux parfaitement conditionner le contenu de robots.txt par du PHP en fonction de $_SERVER['HTTP_HOST'] (ne pas oublier que "type MIME" doit être "text/plain").

Une simple règle de réécriture conditionnelle permet de présenter un fichier robots.txt différent selon le domaine.
Un permettant l'indexation, l'autre non....

Vous voulez dire faire une page en php et faire de l'URL rewriting ?

ne pas oublier que "type MIME" doit être "text/plain"

Que veut-tu dire ? Spécifier le type de fichier dans l'entête ?

header('Content-type: text/plain');

Ton page.php est un fichier différent pour chaque sous-domaine ?

Et non, sinon ça ne serait pas un problème ...

Merci pour vos conseil ! C'est parti !

**Dan** · 12 Avril 2007

Tu fais deux fichiers:

- un robots.txt qui permet l'indexation

- un robots.noindex.txt qui ne la permet pas.

Ensuite, tu mets une condition dans le fichier .htaccess de la racine commune aux deux domaines

RewriteCond %{HTTP_HOST} !www.domaine-a-indexer.tld
RewriteRule robots.txt robots.noindex.txt [L]

Si le domaine n'est pas celui que tu veux faire indexer, tu rediriges robots.txt et founis le contenu de robots.noindex.txt

Sinon, tu fournis le robots.txt standard.

Dan

Spark · 12 Avril 2007

Oh c'est encore plus simple comme ça. Je ne connaissais pas pas. Ca fonction parfaitement.

Merci !

Connexion

Est-il possible de mettre des liens absolu dans robots.txt ?

Sujets conseillés

Spark

YoyoS

Spark

Régis

Jeanluc

Spark

Jeanluc

Sebastien

Dan

Jeanluc

Sebastien

Spark

Dan

Spark

Veuillez vous connecter pour commenter

Contenu similaire

Publicité et robots.txt

Du ménage dans les urls

Référencement + changement domaine et hébergement

Redirection / mise en ligne d'un site updaté

Parcourir

Activité