Aller au contenu

Sujets conseillés

Posté

Cette fois je ne comprend plus rien... Google est en train de crawler mon site un peu partout mais sur une page on dirait qu'il mélange toutes les URL's qu'il trouve dans le code de la page pour fabriquer des url's qu'il se met à crawler aussi en confondant le fichier livres-titres.php avec un répertoire.

Ex:

/livres-titres.php/site-map.php

/livres-titres.php/recherche/recherche/

/livres-titres.php/livres-titres-K.php

/livres-titres.php/recherche/livres-titres-B.php

Et il semble inventer toutes les combinaisons possibles.

Ce n'est pas mon programme de stats qui a un bug ( Fonctionne depuis 2 ans, rien d'anormal dans le code source de la page qui passe au test W3C. Quant au site map ( Que je commence à regarder d'un oeil sombre ) il ne contient que:

-----------------------------------------------

<url>

<loc&gt;http://www.bouquinique.com/site-map.php</loc>

<priority>0.5000</priority>

</url>

<url>

<loc&gt;http://www.bouquinique.com/livres-titres.php</loc>

<priority>0.5000</priority>

</url>

<url>

<loc&gt;http://www.bouquinique.com/livres-titres-A.php</loc>

<priority>1</priority>

</url>

----- Jusqu'a livres-titres-Z.php

-----------------------------------------------

Si quelqu''un comprend ou a déjà vu ça ailleurs ?

Posté (modifié)

Bonjour,

Le problème principal est que, pour ces adresses fantaisistes, ton site renvoie un code 200 OK au lieu d'un code 404.

Si je visite [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/, j'y trouve un lien Recherche livres anciens vers [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/. Et si je visite cette dernière page, ... :whistling:

Résultat : des centaines de pages bidon en duplicate content.

Jean-Luc

Modifié par Jeanluc
Posté

J'ai un problème un peu similaire avec notre vieux compagnon Google : certaines de mes pages s'appellent &quot;http://www.alfos-peche.com/catalogue-" suvi d'un nom de marque de produit et un numéro, puis par ".html". Et bien quand on tape un nom de marque sur Google, l'url qu'il affiche fait apparaître deux fois le mot "catalogue" !

Ce n'est pas du tout gênant dans mon cas, on arrive bien sur la bonne page de mon site dans la mesure ou l'url rewriting ne tient compte que du numéro en fin d'url, mais c'est assez curieux... J'ai bien vérifié qu'aucun de mes liens internes ne faisaient apparaître 2 fois le mot "catalogue", et ma sitemap non plus.

En partant de l'hypothèse que les sitemaps sont effectivement prises en compte à l'heure actuelle (ce qui reste à prouver), y aurait-il un bug dans la lecture de la map ?

Posté

Bonjour,

En partant de l'hypothèse que les sitemaps sont effectivement prises en compte à l'heure actuelle (ce qui reste à prouver), y aurait-il un bug dans la lecture de la map ?

Tu as le même problème que fedorax. Il ne faut pas trop vite accuser ce pôvre Google... ;o) Son collègue Yahoo a aussi trouvé tes /catalogue-catalogue-... : link:http://www.alfos-peche.com/catalogue-catalogue-daiwa-7.html.

Tu vas dans le code source des deux pages indiquées et tu trouves les liens vers /catalogue-catalogue-....

Ce n'est pas une bonne technique de ne pas renvoyer de code 404 pour les adresses incorrectes.

Google n'a jamais dit qu'il prendrait le sitemap comme une Bible. C'est juste une source d'informations parmi d'autres.

Jean-Luc

Posté

Tu as raison, Jean-Luc, mea culpa, l'erreur venait bien de moi. Comme quoi, il est plus facile d'accuser ce pauvre Google que de relire patiemment une page de code... sans compter l'effet catalyseur du premier accusateur pour un problème similaire.

Maintenant que Google a référencé les pages avec le mot "catalogue" en double, je n'ai plus qu'à attendre qu'il repasse sur mon site en référençant les liens corrigés, pas besoin de 404 dans la mesure ou l'url rewriting permet d'accéder aux bonnes pages, que l'on y fasse appel avec deux fois le mot "catalogue", ou une seule fois.

Posté
pas besoin de 404 dans la mesure ou l'url rewriting permet d'accéder aux bonnes pages, que l'on y fasse appel avec deux fois le mot "catalogue", ou une seule fois.

Tu devrais relire la remarque très judicieuse de Cendrillon, un peu plus haut... ;)

Jean-Luc

Posté

C'est vrai. Il me suffit d'ajouter une ligne à mon htaccess qui redirige les url comportant 2 fois le mot catalogue sur ma 404, et le problème de duplicate-content est résolu, n'est-ce pas ?

Posté

Faut être certain de renvoyer un code 404 (parfois on renvoie des 302 sans s'en rendre compte).

Ou, encore mieux, tu renvoies un code 301 et tu rediriges vers la bonne adresse. C'est le top.

Jean-Luc

Posté
Bonjour,

Le problème principal est que, pour ces adresses fantaisistes, ton site renvoie un code 200 OK au lieu d'un code 404.

Si je visite [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/, j'y trouve un lien Recherche livres anciens vers [i]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/. Et si je visite cette dernière page, ...  :whistling:

Résultat : des centaines de pages bidon en duplicate content.

Jean-Luc

<{POST_SNAPBACK}>

Oui apparament le nav lit: /livres-titres.php/...... comme un fichier ( C'en est un et pas un répertoire ) et ne tient pas compte de ce qui suit sinon ça ferait en effet un 404.

J'ai vu la réponse à propos du cataloge de pèche. Est-ce que ça pourrait venir du fait que le même répertoire contienne des fichiers:

livres-titres-A.php, livres-titres-B.php etc ... ?

Mais je ne vois quand même pas comment je peux trouver des trucs comme:

http://www.bouquinique.com/livres-titres.p...rche/recherche/

Si /recherche est bien un répertoire situé à la racine il n'est dupliqué nulle part ailleurs et ne contient aucun fichier livres-qq.chose.

Posté

Je me demande si je n'ai pas fait une bourde dans les 301, le fait d'avoir redirigé un répertoire ( En considérant que index.html ou .php était implicite ) pourrait-il être à l'origine du problème ?

Redirect Permanent /html/A.php http://www.bouquinique.com/livres-titres-A.php

Redirect Permanent /html/B.php http://www.bouquinique.com/livres-titres-B.php

Etc jusqu'a Z...

Redirect Permanent /html http://www.bouquinique.com/livres-titres.php

Dans le doute j'ai supprimé la ligne.

Posté

[i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/recherche/

est le lien à travers le texte Recherche livres anciens dans la page

[i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/.

[i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/recherche/

est le lien à travers le texte Recherche livres anciens dans la page

[i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/.

[i]http://www.bouquinique.com/livres-titres.php/recherche/'>]http://www.bouquinique.com/livres-titres.php/recherche/

est le lien à travers le texte Recherche livres anciens dans la page

[i]http://www.bouquinique.com/livres-titres.php/.

Si cela ne te semble pas clair, va sur la page [i]http://www.bouquinique.com/livres-titres.php/ et clique 10 fois sur le lien Recherche livres anciens, puis regarde l'adresse dans la barre d'adresse. ;)

Le site gimp.org ne traite pas correctement les erreurs 404. C'est un exemple de ce qu'il ne faut pas faire.

Concernant ton .htaccess, je pense qu'il devrait être écrit autrement, mais je préfèrerais laisser la parole à un grand expert du sujet comme Dan.

Jean-Luc

Posté

Pour ton .htaccess, le moins qu'on puisse dire est qu'il n'est pas très élégant.

Au lieu de

Redirect Permanent /html/A.php http://www.bouquinique.com/livres-titres-A.php
../..
Redirect Permanent /html/Z.php http://www.bouquinique.com/livres-titres-Z.php

pour tous les titres de A à Z, j'aurais plutôt mis ceci

RewriteEngine On
RewriteRule html/([A-Z])\.php http://www.bouquinique.com/livres-titres-$1.php [R=301,L]
RewriteRule html http://www.bouquinique.com/livres-titres.php [R=301,L]

La dernière ligne uniquement si le répertoire html ne contient rien d'autre que les fichiers [A-Z].php ...

Dan

  • 3 semaines plus tard...
Posté

Suite et fin de l'aventure... Le 11 Décembre google m'a refait un crawl encore plus fantaisiste de 52 urls recomposées à sa manière. J'ai piqué ma crise et j'ai enlevé le site map pour voir.

Depuis plus aucun crawl fantaisiste et depuis le 16 décembre les nouvelles pages commencent à être indexées. Je n'ai toujours pas compris le pourquoi de la chose mais vu que ça remarche je ne touche plus à rien.

J'ai également refait le htaccess selon le modèle de dan. C'est vrai que c'est plus propre.

Joyeuses fêtes à tous.

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...