Aller au contenu

Sujets conseillés

Posté

Bonjour à tous,



Je me trouve face à un problème cornelien, j'ai pas mal cherché et je ne trouve pas de solution.



Les bots crawler, me trouve des urls cassées juste avant la première virgule de mes urls.


Ce qui donne des belles 404 qui remonte dans GWT et dans mes logs apache



J'ai bien entendu passé un xenuh pour voir si ce n'était pas le site qui générait ces urls.


J'ai aussi fait des tests sur ces url dans les moteurs de recherche et sur site de seo, voir si ce n'était pas un site qui me faisait ces liens et... nada.



Ce bug est remonté suite à une correction dans mon htaccess que j'avais écrit avec le nom du site (pages d'erreurs personnalisées), donc toutes ces pages sortaient en 302 au lieu de 404.



Le GWT me dit que ces url viennent de mon sitemap.


J'ai regardé mon site map, rien de spectaculaire. toutes les balises sont là,


Les virgules ne sont pas encodées elles sont écrites : ",". => Faut-il encoder en %C2 ?


si oui quel impact pour le référencement ?



Voici la structure des urls :


http://exemple.com/rubrique/sousrubrique/titre-de-la-page--id1,id2,id3,id4.html


comme vous l'aurez compris l'url qui est crawlée est : http://exemple.com/rubrique/sousrubrique/titre-de-la-page--id1



La règle de réécriture :



RewriteRule ^rubrique/([-a-zA-Z0-9]*)/([-a-zA-Z0-9]*)--([0-9]*),([0-9]*),([0-9]*),([0-9]*)\.html$ index.php?id1=$3&id2=$4&id3=$5&id4=$6 [L,QSA]

Extrait de log apache



66.249.67.133 - - [03/Jul/2014:07:00:28 +0200] "GET /rubrique/sousrubrique/titre-de-la-page--2 HTTP/1.1" 404 527 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Un exemple de redirection (vu que j'ai fait un rewriting récement :



RewriteRule ^ancienrep/rubrique/titre-de-la-page--id1,id2,id3\.html$ http://example.com/rubrique/sousrubrique/titre-de-la-page--id1,id2,id3,id4.html [R=301]



Donc voilà, je ne comprends vraiment pas pourquoi ces urls tronquées apparaissent alors qu'elles n'existent nulle part.



Merci pour votre intérêt et vos réponses.


Cordialement


Skrill


  • 2 semaines plus tard...
Posté

les virgules dans les url, c'est une très mauvaise idée. Je le sais car c'est ce que j'utilisais avant.
Le pourquoi : un certain nombre de sites, dont FB à l'époque, apportaient une correction aux contenu en ajoutant un espace après une virgule, ce qui fait que ta jolie url se retrouvait tronquée.
A force de voir plein d'erreurs 404 dans mes long, j'avais décidé de modifier les url en supprimant les virgules

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...