fedorax Posté 9 Décembre 2005 Posté 9 Décembre 2005 Cette fois je ne comprend plus rien... Google est en train de crawler mon site un peu partout mais sur une page on dirait qu'il mélange toutes les URL's qu'il trouve dans le code de la page pour fabriquer des url's qu'il se met à crawler aussi en confondant le fichier livres-titres.php avec un répertoire. Ex: /livres-titres.php/site-map.php /livres-titres.php/recherche/recherche/ /livres-titres.php/livres-titres-K.php /livres-titres.php/recherche/livres-titres-B.php Et il semble inventer toutes les combinaisons possibles. Ce n'est pas mon programme de stats qui a un bug ( Fonctionne depuis 2 ans, rien d'anormal dans le code source de la page qui passe au test W3C. Quant au site map ( Que je commence à regarder d'un oeil sombre ) il ne contient que: ----------------------------------------------- <url> <loc>http://www.bouquinique.com/site-map.php</loc> <priority>0.5000</priority> </url> <url> <loc>http://www.bouquinique.com/livres-titres.php</loc> <priority>0.5000</priority> </url> <url> <loc>http://www.bouquinique.com/livres-titres-A.php</loc> <priority>1</priority> </url> ----- Jusqu'a livres-titres-Z.php ----------------------------------------------- Si quelqu''un comprend ou a déjà vu ça ailleurs ?
Cendrillon Posté 9 Décembre 2005 Posté 9 Décembre 2005 qq qu'en soit la raison, à ce régime tu risque de te retrouver avec 2 URLs pour chaque page et donc avec un magnifique duplicate content ...
Jeanluc Posté 9 Décembre 2005 Posté 9 Décembre 2005 (modifié) Bonjour, Le problème principal est que, pour ces adresses fantaisistes, ton site renvoie un code 200 OK au lieu d'un code 404. Si je visite [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/, j'y trouve un lien Recherche livres anciens vers [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/. Et si je visite cette dernière page, ... Résultat : des centaines de pages bidon en duplicate content. Jean-Luc Modifié 9 Décembre 2005 par Jeanluc
Kalt Posté 9 Décembre 2005 Posté 9 Décembre 2005 J'ai un problème un peu similaire avec notre vieux compagnon Google : certaines de mes pages s'appellent "http://www.alfos-peche.com/catalogue-" suvi d'un nom de marque de produit et un numéro, puis par ".html". Et bien quand on tape un nom de marque sur Google, l'url qu'il affiche fait apparaître deux fois le mot "catalogue" ! Ce n'est pas du tout gênant dans mon cas, on arrive bien sur la bonne page de mon site dans la mesure ou l'url rewriting ne tient compte que du numéro en fin d'url, mais c'est assez curieux... J'ai bien vérifié qu'aucun de mes liens internes ne faisaient apparaître 2 fois le mot "catalogue", et ma sitemap non plus. En partant de l'hypothèse que les sitemaps sont effectivement prises en compte à l'heure actuelle (ce qui reste à prouver), y aurait-il un bug dans la lecture de la map ?
Jeanluc Posté 9 Décembre 2005 Posté 9 Décembre 2005 Bonjour, En partant de l'hypothèse que les sitemaps sont effectivement prises en compte à l'heure actuelle (ce qui reste à prouver), y aurait-il un bug dans la lecture de la map ? Tu as le même problème que fedorax. Il ne faut pas trop vite accuser ce pôvre Google... ;o) Son collègue Yahoo a aussi trouvé tes /catalogue-catalogue-... : link:http://www.alfos-peche.com/catalogue-catalogue-daiwa-7.html. Tu vas dans le code source des deux pages indiquées et tu trouves les liens vers /catalogue-catalogue-.... Ce n'est pas une bonne technique de ne pas renvoyer de code 404 pour les adresses incorrectes. Google n'a jamais dit qu'il prendrait le sitemap comme une Bible. C'est juste une source d'informations parmi d'autres. Jean-Luc
Kalt Posté 9 Décembre 2005 Posté 9 Décembre 2005 Tu as raison, Jean-Luc, mea culpa, l'erreur venait bien de moi. Comme quoi, il est plus facile d'accuser ce pauvre Google que de relire patiemment une page de code... sans compter l'effet catalyseur du premier accusateur pour un problème similaire. Maintenant que Google a référencé les pages avec le mot "catalogue" en double, je n'ai plus qu'à attendre qu'il repasse sur mon site en référençant les liens corrigés, pas besoin de 404 dans la mesure ou l'url rewriting permet d'accéder aux bonnes pages, que l'on y fasse appel avec deux fois le mot "catalogue", ou une seule fois.
Jeanluc Posté 9 Décembre 2005 Posté 9 Décembre 2005 pas besoin de 404 dans la mesure ou l'url rewriting permet d'accéder aux bonnes pages, que l'on y fasse appel avec deux fois le mot "catalogue", ou une seule fois. Tu devrais relire la remarque très judicieuse de Cendrillon, un peu plus haut... Jean-Luc
Kalt Posté 9 Décembre 2005 Posté 9 Décembre 2005 C'est vrai. Il me suffit d'ajouter une ligne à mon htaccess qui redirige les url comportant 2 fois le mot catalogue sur ma 404, et le problème de duplicate-content est résolu, n'est-ce pas ?
Jeanluc Posté 9 Décembre 2005 Posté 9 Décembre 2005 Faut être certain de renvoyer un code 404 (parfois on renvoie des 302 sans s'en rendre compte). Ou, encore mieux, tu renvoies un code 301 et tu rediriges vers la bonne adresse. C'est le top. Jean-Luc
fedorax Posté 10 Décembre 2005 Auteur Posté 10 Décembre 2005 Bonjour, Le problème principal est que, pour ces adresses fantaisistes, ton site renvoie un code 200 OK au lieu d'un code 404. Si je visite [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/, j'y trouve un lien Recherche livres anciens vers [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/. Et si je visite cette dernière page, ... Résultat : des centaines de pages bidon en duplicate content. Jean-Luc <{POST_SNAPBACK}> Oui apparament le nav lit: /livres-titres.php/...... comme un fichier ( C'en est un et pas un répertoire ) et ne tient pas compte de ce qui suit sinon ça ferait en effet un 404. J'ai vu la réponse à propos du cataloge de pèche. Est-ce que ça pourrait venir du fait que le même répertoire contienne des fichiers: livres-titres-A.php, livres-titres-B.php etc ... ? Mais je ne vois quand même pas comment je peux trouver des trucs comme: http://www.bouquinique.com/livres-titres.p...rche/recherche/ Si /recherche est bien un répertoire situé à la racine il n'est dupliqué nulle part ailleurs et ne contient aucun fichier livres-qq.chose.
fedorax Posté 10 Décembre 2005 Auteur Posté 10 Décembre 2005 PS: Si j'essaie un lien de ce genre: http://gimp.org/index.html/toto/tata/tonto...xiste%20pas.php J'ai le site gimp de manière normale.
fedorax Posté 10 Décembre 2005 Auteur Posté 10 Décembre 2005 Je me demande si je n'ai pas fait une bourde dans les 301, le fait d'avoir redirigé un répertoire ( En considérant que index.html ou .php était implicite ) pourrait-il être à l'origine du problème ? Redirect Permanent /html/A.php http://www.bouquinique.com/livres-titres-A.phpRedirect Permanent /html/B.php http://www.bouquinique.com/livres-titres-B.php Etc jusqu'a Z... Redirect Permanent /html http://www.bouquinique.com/livres-titres.php Dans le doute j'ai supprimé la ligne.
Jeanluc Posté 10 Décembre 2005 Posté 10 Décembre 2005 Mais je ne vois quand même pas comment je peux trouver des trucs comme: [i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/ [i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/ est le lien à travers le texte Recherche livres anciens dans la page [i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/. [i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/ est le lien à travers le texte Recherche livres anciens dans la page [i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/. [i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/ est le lien à travers le texte Recherche livres anciens dans la page [i]http://www.bouquinique.com/livres-titres.php/. Si cela ne te semble pas clair, va sur la page [i]http://www.bouquinique.com/livres-titres.php/ et clique 10 fois sur le lien Recherche livres anciens, puis regarde l'adresse dans la barre d'adresse. Le site gimp.org ne traite pas correctement les erreurs 404. C'est un exemple de ce qu'il ne faut pas faire. Concernant ton .htaccess, je pense qu'il devrait être écrit autrement, mais je préfèrerais laisser la parole à un grand expert du sujet comme Dan. Jean-Luc
Dan Posté 10 Décembre 2005 Posté 10 Décembre 2005 PS: Si j'essaie un lien de ce genre: http://gimp.org/index.html/toto/tata/tonto...xiste%20pas.php J'ai le site gimp de manière normale. Et qui plus est avec une entête 200 OK ...
Dan Posté 10 Décembre 2005 Posté 10 Décembre 2005 Pour ton .htaccess, le moins qu'on puisse dire est qu'il n'est pas très élégant. Au lieu de Redirect Permanent /html/A.php http://www.bouquinique.com/livres-titres-A.php../..Redirect Permanent /html/Z.php http://www.bouquinique.com/livres-titres-Z.php pour tous les titres de A à Z, j'aurais plutôt mis ceci RewriteEngine OnRewriteRule html/([A-Z])\.php http://www.bouquinique.com/livres-titres-$1.php [R=301,L]RewriteRule html http://www.bouquinique.com/livres-titres.php [R=301,L] La dernière ligne uniquement si le répertoire html ne contient rien d'autre que les fichiers [A-Z].php ... Dan
fedorax Posté 26 Décembre 2005 Auteur Posté 26 Décembre 2005 Suite et fin de l'aventure... Le 11 Décembre google m'a refait un crawl encore plus fantaisiste de 52 urls recomposées à sa manière. J'ai piqué ma crise et j'ai enlevé le site map pour voir. Depuis plus aucun crawl fantaisiste et depuis le 16 décembre les nouvelles pages commencent à être indexées. Je n'ai toujours pas compris le pourquoi de la chose mais vu que ça remarche je ne touche plus à rien. J'ai également refait le htaccess selon le modèle de dan. C'est vrai que c'est plus propre. Joyeuses fêtes à tous.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant