invader-u Posté 26 Mars 2006 Partager Posté 26 Mars 2006 Bonjour, Dans le cardre du rewriting de mon forum, je voudrais interdire a google d'indexer certaines pages. En effet, mon rewriting est le de la forme suivante : forum/titresujet,idsujet,html ---> forum/index.php?showtopic=idsujet Pour eviter le duplicate content, j'ai aussi ajoute une regle qui redirige cette ancienne url vers une page de redirection qui calcule la bon url rewrite et redirige avec code 301 genre : forum/index.php?showtopic=idsujet --> redirect.php?type=showtopic&id=idsujet (donc comme je l'ai dit le script redirect.php s'occupe de tout et calcule la bonne url et fait une redirection 301) Par contre dans mon forum, j'ai aussi des url de ce genre : forum/index.php?showtopic=idsujet&varx=valx&vary=valy Or ces urls renvoient en gros la meme page, juste avec par exemple des termes de la page mis en inverse video (ou ca renvoit sur une ancre), mais c'est le meme contenu. Donc pour eviter le duplicate content, je voudrais renseigner le fichier robots.txt afin de bloquer l'acces des moteurs a : index.php?* Mon probleme, c'est que j'ai deja plein de backlink sur mes anciennes url. Mon fichier redirect.php me permet de les conserver, mais sans un fichier robots.txt, je risque le duplicate content. Mais avec un fichier robots.txt, est ce que je perd le benefice des backlinks de mes anciennes urls ou est ce que c'est uniquement comme un "noindex" dans les meta de la page ? Je vous remercie Lien vers le commentaire Partager sur d’autres sites More sharing options...
Dan Posté 26 Mars 2006 Partager Posté 26 Mars 2006 Un robots.txt a pour effet de ne pas permettre l'indexation de la page, comme d'ailleurs un "noindex". Dans ce cas, si la page n'est pas indexée, les backlinks ne seront pas pris en compte non plus. Lien vers le commentaire Partager sur d’autres sites More sharing options...
Jeanluc Posté 26 Mars 2006 Partager Posté 26 Mars 2006 Mon probleme, c'est que j'ai deja plein de backlink sur mes anciennes url. Mon fichier redirect.php me permet de les conserver, mais sans un fichier robots.txt, je risque le duplicate content. Je ne comprends pas où est le risque de "duplicate content", si tes anciennes URL redirigent (301) vers les nouvelles. Jean-Luc Lien vers le commentaire Partager sur d’autres sites More sharing options...
invader-u Posté 26 Mars 2006 Auteur Partager Posté 26 Mars 2006 Un robots.txt a pour effet de ne pas permettre l'indexation de la page, comme d'ailleurs un "noindex". Dans ce cas, si la page n'est pas indexée, les backlinks ne seront pas pris en compte non plus. <{POST_SNAPBACK}> En fait ma question est multiple et j'ai pas d bien m'expliquer, ou je comprends pas bien la reponse. Donc je vais reexpliquer plus clairement le cas de figure. j'ai : forum/titre,idsujet.html qui est en fait /forum/index.php?var1=idsujet (redirection transparente) forum/titre,idsujet,idpage.html qui est en fait /forum/index.php?var1=idsujet&var2=idpage (redirection transparente) Je fait une redirection de transparente de ces anciennes url vers un script de redirection qui determine qu'elle est l'url rewritee correspondante et fait une redirection 301 . Donc si sur la toile quelquepart, il y a un lien vers une url de la forme : /forum/index.php?var1=idsujet ca redirige vers mon script redirect.php qui lui calcule la bonne url rewritee : forum/titre,idsujet.html et fait une redirection de type 301 (par envoi de header) Mais le probleme : C'est que j'ai aussi des url de type : /forum/index.php?var1=idsujet&nivar1nivar2=valx et ces url pointe vers la meme page. l'attribut nivar1nivar2 servant par exemple a faire une infime modification de la page exemple : http://www.webmaster-hub.com/index.php?showtopic=22961http://www.webmaster-hub.com/index.php?showtopic=22961&view=getlastpost Dans mon cas la premiere url est redirigee en 301, mais pas la seconde affiche en fait : http://www.webmaster-hub.com/index.php?showtopic=22961&pid=161566&st=0entry161566 Dans les 2 cas, la premiere url et la seconde affiche la meme page (a une ancre pret) et j'ai peur qu'il y ai duplicate content entre forum/titre,22961.html et index.php?showtopic=22961&pid=161566&st=0entry161566 car au final c'est le meme code Donc je voudrais interdire par robot.txt index.php?showtopic=22961&pid=161566&st=0entry161566 index.php?showtopic=22961&view=getlastpost mais pas perdre les anciens backlinks de index.php?showtopic=22961 car il sont conserve par la redirection 301 vers forum/titre,22961.html Avait vous une idee pour faire ca avec le robots.txt Lien vers le commentaire Partager sur d’autres sites More sharing options...
Jeanluc Posté 26 Mars 2006 Partager Posté 26 Mars 2006 Dans mon cas la premiere url est redirigee en 301,mais pas la seconde Si je comprends bien, tes anciennes URL non rewritées affichent les mêmes pages que les URL rewritées, mais elles mettent des bouts de texte en gras. Cette mise en gras est-elle encore importante actuellement ? Si la réponse est non, tu pourrais les rediriger (301) comme tu fais avec les autres, non ? Si cela ne convient pas, il y a peut-être une solution avec robots.txt, mais pour Google uniquement (pas pour tous les autres moteurs de recherche). Tu mets quelque chose comme ceci: User-agent: GooglebotDisallow: *&pid=Disallow: *&st= Ceci interdira les adresses comprenant &pid=... ou &st=... à Google. Concernant les ancres (#ancre), à ma connaissance, elles ne provoquent jamais de duplicate content, car leur rôle n'est pas d'identifier une autre page, mais simplement d'indiquer qu'on demande de positionner la page d'une certaine façon sur l'écran. Jean-Luc Lien vers le commentaire Partager sur d’autres sites More sharing options...
invader-u Posté 26 Mars 2006 Auteur Partager Posté 26 Mars 2006 Je te remercie pour ton aide. Pourquoi c'est uniquement pour google ? concernant les ancres elle ne sont pas transmisent au serveur, ca se gere que du cote client. Si cela ne convient pas, il y a peut-être une solution avec robots.txt, mais pour Google uniquement (pas pour tous les autres moteurs de recherche). Tu mets quelque chose comme ceci: User-agent: GooglebotDisallow: *&pid=Disallow: *&st= Ceci interdira les adresses comprenant &pid=... ou &st=... à Google. Concernant les ancres (#ancre), à ma connaissance, elles ne provoquent jamais de duplicate content, car leur rôle n'est pas d'identifier une autre page, mais simplement d'indiquer qu'on demande de positionner la page d'une certaine façon sur l'écran. Jean-Luc <{POST_SNAPBACK}> Lien vers le commentaire Partager sur d’autres sites More sharing options...
invader-u Posté 26 Mars 2006 Auteur Partager Posté 26 Mars 2006 Sinon, pour revenir au but premier de ma question et pas a mon cas particulier. Si une page toto.html beneficie d'une "permanente redirection" vers titi.html Si dans le robots.txt on ajoute Disallow toto.html Les moteurs vont pas indexer toto.html , mais les crawler vont la parcourir (il me semble) Tous les backlinks existants vers toto.html vont t'ils etres transmis a titi.html ou seront ils perdu ? (Je suis pas sur d'avoir compris la reponse de Dan a ce sujet) Lien vers le commentaire Partager sur d’autres sites More sharing options...
Jeanluc Posté 26 Mars 2006 Partager Posté 26 Mars 2006 Si une page toto.html beneficie d'une "permanente redirection" vers titi.htmlSi dans le robots.txt on ajoute Disallow toto.html Les moteurs vont pas indexer toto.html , mais les crawler vont la parcourir (il me semble) Pas du tout. S'il y a "Disallow: /toto.html" dans robots.txt, les robots corrects ne vont plus essayer de lire /toto.html. Sans essayer de lire /toto.html, ils ne peuvent pas être redirigés vers /titi.html. Pourquoi c'est uniquement pour google ?Comme la norme robots.txt ne prévoit pas l'emploi du caractère spécial '*', de nombreux robots n'en comprennent pas la signification. Tu peux seulement l'utiliser dans les parties du robots.txt destinées à l'un ou l'autre robot particulier qui l'accepte. Jean-Luc P.S. il y a des infos assez détaillées sur robots.txt dans le site de ma signature. Lien vers le commentaire Partager sur d’autres sites More sharing options...
invader-u Posté 26 Mars 2006 Auteur Partager Posté 26 Mars 2006 Pas du tout. S'il y a "Disallow: /toto.html" dans robots.txt, les robots corrects ne vont plus essayer de lire /toto.html. Sans essayer de lire /toto.html, ils ne peuvent pas être redirigés vers /titi.html. Comme la norme robots.txt ne prévoit pas l'emploi du caractère spécial '*', de nombreux robots n'en comprennent pas la signification. Tu peux seulement l'utiliser dans les parties du robots.txt destinées à l'un ou l'autre robot particulier qui l'accepte. Jean-Luc P.S. il y a des infos assez détaillées sur robots.txt dans le site de ma signature. <{POST_SNAPBACK}> Merci Jean Luc pour toutes ces precisions. J'ai opte pour une autre methode que par un robot.txt. En effet, si c'est necessaire, je parse le code html de retour genere et j'ajoute une balise meta pour les robots avec un noindex (juste en dessous de la balise title) Du coup, je peux choisir exactement ce qui doit etre indexe etce qui ne doit pas. Encore merci à toi et à Dan (que j'harcelle sur un autre sujet ;-) ) Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant