robot.txt - Disallow

invader-u · 26 Mars 2006

Bonjour,

Dans le cardre du rewriting de mon forum, je voudrais interdire a google d'indexer certaines pages.

En effet, mon rewriting est le de la forme suivante :

forum/titresujet,idsujet,html ---> forum/index.php?showtopic=idsujet

Pour eviter le duplicate content, j'ai aussi ajoute une regle qui redirige cette ancienne url vers une page de redirection qui calcule la bon url rewrite et redirige avec code 301

genre :

forum/index.php?showtopic=idsujet --> redirect.php?type=showtopic&id=idsujet

(donc comme je l'ai dit le script redirect.php s'occupe de tout et calcule la bonne url et fait une redirection 301)

Par contre dans mon forum, j'ai aussi des url de ce genre :

forum/index.php?showtopic=idsujet&varx=valx&vary=valy

Or ces urls renvoient en gros la meme page, juste avec par exemple des termes de la page mis en inverse video (ou ca renvoit sur une ancre), mais c'est le meme contenu.

Donc pour eviter le duplicate content, je voudrais renseigner le fichier robots.txt afin de bloquer l'acces des moteurs a :

index.php?*

Mon probleme, c'est que j'ai deja plein de backlink sur mes anciennes url.

Mon fichier redirect.php me permet de les conserver, mais sans un fichier robots.txt, je risque le duplicate content.

Mais avec un fichier robots.txt, est ce que je perd le benefice des backlinks de mes anciennes urls ou est ce que c'est uniquement comme un "noindex" dans les meta de la page ?

Je vous remercie

**Dan** · 26 Mars 2006

Un robots.txt a pour effet de ne pas permettre l'indexation de la page, comme d'ailleurs un "noindex".

Dans ce cas, si la page n'est pas indexée, les backlinks ne seront pas pris en compte non plus.

**Jeanluc** · 26 Mars 2006

Mon probleme, c'est que j'ai deja plein de backlink sur mes anciennes url.

Mon fichier redirect.php me permet de les conserver, mais sans un fichier robots.txt, je risque le duplicate content.

Je ne comprends pas où est le risque de "duplicate content", si tes anciennes URL redirigent (301) vers les nouvelles. :blink:

Jean-Luc

invader-u · 26 Mars 2006

Un robots.txt a pour effet de ne pas permettre l'indexation de la page, comme d'ailleurs un "noindex".

Dans ce cas, si la page n'est pas indexée, les backlinks ne seront pas pris en compte non plus.

<{POST_SNAPBACK}>

En fait ma question est multiple et j'ai pas d bien m'expliquer, ou je comprends pas bien la reponse.

Donc je vais reexpliquer plus clairement le cas de figure.

j'ai :

forum/titre,idsujet.html qui est en fait /forum/index.php?var1=idsujet (redirection transparente)

forum/titre,idsujet,idpage.html qui est en fait

/forum/index.php?var1=idsujet&var2=idpage

(redirection transparente)

Je fait une redirection de transparente de ces anciennes url vers un script de redirection qui determine qu'elle est l'url rewritee correspondante et fait une redirection 301 .

Donc si sur la toile quelquepart, il y a un lien vers une url de la forme :

/forum/index.php?var1=idsujet

ca redirige vers mon script redirect.php qui lui calcule la bonne url rewritee :

forum/titre,idsujet.html

et fait une redirection de type 301 (par envoi de header)

Mais le probleme :

C'est que j'ai aussi des url de type :

/forum/index.php?var1=idsujet&nivar1nivar2=valx

et ces url pointe vers la meme page.

l'attribut nivar1nivar2 servant par exemple a faire une infime modification de la page

exemple :

http://www.webmaster-hub.com/index.php?showtopic=22961
http://www.webmaster-hub.com/index.php?showtopic=22961&view=getlastpost

Dans mon cas la premiere url est redirigee en 301,

mais pas la seconde affiche en fait :

http://www.webmaster-hub.com/index.php?showtopic=22961&pid=161566&st=0entry161566

Dans les 2 cas, la premiere url et la seconde affiche la meme page (a une ancre pret)

et j'ai peur qu'il y ai duplicate content entre

forum/titre,22961.html

et

index.php?showtopic=22961&pid=161566&st=0entry161566

car au final c'est le meme code

Donc je voudrais interdire par robot.txt

index.php?showtopic=22961&pid=161566&st=0entry161566

index.php?showtopic=22961&view=getlastpost

mais pas perdre les anciens backlinks de index.php?showtopic=22961

car il sont conserve par la redirection 301 vers forum/titre,22961.html

Avait vous une idee pour faire ca avec le robots.txt

**Jeanluc** · 26 Mars 2006

Dans mon cas la premiere url est redirigee en 301,
mais pas la seconde

Si je comprends bien, tes anciennes URL non rewritées affichent les mêmes pages que les URL rewritées, mais elles mettent des bouts de texte en gras. Cette mise en gras est-elle encore importante actuellement ? Si la réponse est non, tu pourrais les rediriger (301) comme tu fais avec les autres, non ?

Si cela ne convient pas, il y a peut-être une solution avec robots.txt, mais pour Google uniquement (pas pour tous les autres moteurs de recherche). Tu mets quelque chose comme ceci:

User-agent: Googlebot
Disallow: *&pid=
Disallow: *&st=

Ceci interdira les adresses comprenant &pid=... ou &st=... à Google.

Concernant les ancres (#ancre), à ma connaissance, elles ne provoquent jamais de duplicate content, car leur rôle n'est pas d'identifier une autre page, mais simplement d'indiquer qu'on demande de positionner la page d'une certaine façon sur l'écran.

Jean-Luc

invader-u · 26 Mars 2006

Je te remercie pour ton aide.

Pourquoi c'est uniquement pour google ?

concernant les ancres elle ne sont pas transmisent au serveur, ca se gere que du cote client.

Si cela ne convient pas, il y a peut-être une solution avec robots.txt, mais pour Google uniquement (pas pour tous les autres moteurs de recherche). Tu mets quelque chose comme ceci:
User-agent: Googlebot
Disallow: *&pid=
Disallow: *&st=
Ceci interdira les adresses comprenant &pid=... ou &st=... à Google.

Concernant les ancres (#ancre), à ma connaissance, elles ne provoquent jamais de duplicate content, car leur rôle n'est pas d'identifier une autre page, mais simplement d'indiquer qu'on demande de positionner la page d'une certaine façon sur l'écran.

Jean-Luc

<{POST_SNAPBACK}>

invader-u · 26 Mars 2006

Sinon, pour revenir au but premier de ma question et pas a mon cas particulier.

Si une page toto.html beneficie d'une "permanente redirection" vers titi.html

Si dans le robots.txt on ajoute Disallow toto.html

Les moteurs vont pas indexer toto.html , mais les crawler vont la parcourir (il me semble)

Tous les backlinks existants vers toto.html vont t'ils etres transmis a titi.html ou seront ils perdu ?

(Je suis pas sur d'avoir compris la reponse de Dan a ce sujet)

**Jeanluc** · 26 Mars 2006

Si une page toto.html beneficie d'une "permanente redirection" vers titi.html
Si dans le robots.txt on ajoute Disallow toto.html

Les moteurs vont pas indexer toto.html , mais les crawler vont la parcourir (il me semble)

Pas du tout.

S'il y a "Disallow: /toto.html" dans robots.txt, les robots corrects ne vont plus essayer de lire /toto.html.

Sans essayer de lire /toto.html, ils ne peuvent pas être redirigés vers /titi.html.

Pourquoi c'est uniquement pour google ?

Comme la norme robots.txt ne prévoit pas l'emploi du caractère spécial '*', de nombreux robots n'en comprennent pas la signification. Tu peux seulement l'utiliser dans les parties du robots.txt destinées à l'un ou l'autre robot particulier qui l'accepte.

Jean-Luc

P.S. il y a des infos assez détaillées sur robots.txt dans le site de ma signature.

invader-u · 26 Mars 2006

Pas du tout.

S'il y a "Disallow: /toto.html" dans robots.txt, les robots corrects ne vont plus essayer de lire /toto.html.

Sans essayer de lire /toto.html, ils ne peuvent pas être redirigés vers /titi.html.

Comme la norme robots.txt ne prévoit pas l'emploi du caractère spécial '*', de nombreux robots n'en comprennent pas la signification. Tu peux seulement l'utiliser dans les parties du robots.txt destinées à l'un ou l'autre robot particulier qui l'accepte.

Jean-Luc

P.S. il y a des infos assez détaillées sur robots.txt dans le site de ma signature.

<{POST_SNAPBACK}>

Merci Jean Luc pour toutes ces precisions.

J'ai opte pour une autre methode que par un robot.txt.

En effet, si c'est necessaire, je parse le code html de retour genere et j'ajoute une balise meta pour les robots avec un noindex (juste en dessous de la balise title)

Du coup, je peux choisir exactement ce qui doit etre indexe etce qui ne doit pas.

Encore merci à toi et à Dan (que j'harcelle sur un autre sujet ;-) )

Connexion

robot.txt - Disallow

Sujets conseillés

invader-u

Dan

Jeanluc

invader-u

Jeanluc

invader-u

invader-u

Jeanluc

invader-u

Veuillez vous connecter pour commenter

Contenu similaire

Problème redirection .htaccess (Augmentation des URL non suivies)

mod_rewrite et perte du chemin relatif

Dossiers et index htaccess

Problème de redirection non désiré

Parcourir

Activité