Le-juge Posté 15 Janvier 2010 Posté 15 Janvier 2010 Salut, je suis en train de bosser sur un site et j'avoue que je seche un peu sur un petit souci: quand je fais une commande "site:www.methodisthealth.com" dans Google ou que je checke le site dans yahoo siteexplorer le site a des jolies URLs bien proprettes. Par contre quand on est sur le site... que du dynamique aucune URL statique dans le code. En checkant les liens entrant idem, tout dynamique aucune URL reecrite. finalement quand je checke les header des URls reecrites je trouve du 302 a chaque fois ma question c'est comment ont ils fait pour que les outils indexent uniquement (ou presque) que les dynamiques ... J'avais pense a du canonique masi rien dans le code qui pourrait le prouver. quelqu'un a il une idee
SLC71 Posté 18 Janvier 2010 Posté 18 Janvier 2010 Peut être vais je dire une connerie mais ce ne sera pas la première, mais à partir d'un fichier htaccess c'est faisable non?
Le-juge Posté 18 Janvier 2010 Auteur Posté 18 Janvier 2010 C'est pas une connerie mais ca ne reponds pas vraiment a la question en fait. Oui il y a redirection a un moment et ca peut se faire via Htaccess.. mon probleme n'est pas la ... en fait quand un moteur de recherche indexe les URLs d'un site, il le fait via celles qu'ils trouvent dand le code dudit site au moment du crawl (comment pourrait il faire autrement d'ailleurs) C'est pourquoi dans ton code il faut presenter les URLs Statiques du site si tu veux que les moteurs prennent en compte la re-ecriture. (sinon ca sert a rien, tes internautes verront une belle URL re-recrite dans la barre d'adresse mais ca s'arretera la). Dans mon cas en l'occurence, toutes les URLs du site presentent dans le code sont des URLs dynamiques, mais les URLs indexees sont des Statiques qui redirige vers les dynamiques via 302. Je n'ai pas vu de sitemap XML. J'ai pense a des URLs canoniques mais rien dans le code un fois de plus qui puisse le justifier.
Dan Posté 18 Janvier 2010 Posté 18 Janvier 2010 Désolé, mais je ne vois pas du tout... raison pour laquelle je ne t'avais pas répondu
paolodelmare Posté 18 Janvier 2010 Posté 18 Janvier 2010 Impossible de traduire le site avec g-translate. Les tentatives de traduire les urls indexées indiquent un tentative de redirection. Le changement d'user-agent/referrer ne donne rien. Ça ressemble à des méthode de cloaking par reverse DNS.
SLC71 Posté 19 Janvier 2010 Posté 19 Janvier 2010 au risque de paraitre encore plus lourd je persiste avec le htaccess. Je ne parle pas seulement de la redirection mais de l'url canonique. Tout d'abord tu dis qu'il n'y a que du dyn sur le site, pour moi la home est en statique. En fait j'ai pensé (mais je ne suis pas sur que ce soit réalisable et surtout j'en vois pas l'intéret) à la définition de l'url dyn en canonique via le htaccess tout comme on le fait en principe pour rediriger un domaine.com vers un 3w.domaine.com pourquoi ne l'aurait il pas fait de statique vers dyn. on ne verrais rien dans le code de cette façon? Peut être suis je totalement à côté de la plaque, j'ai pas encore connaissance de toutes les subtilités
Nosurf99 Posté 19 Janvier 2010 Posté 19 Janvier 2010 Bonjour, Il y a bien quelques URLs statiques qui trainent dans le code source des pages. Exemple : Sur la page http://www.methodisthealth.com/tmhs/basic-right.do?channelId=-1073830894&programId=1073768727 1ère colonne de contenu : "For Methodist Physicians", voir le 3ième lien "Access Emmi Patient ..." Il y a bien une 302 de l'URL ré-écrite vers l'URL dynamique. Effet secondaire de la 302 chez Google : je garde l'URL de départ et j'y associe le contenu de l'URL d'arrivée ! Ca marche pas à tous les coups, mais remember les Mangeurs de Cigogne Méthode utilisée pour les identifier : Ce bon vieux XENU et ses capacités de crawl. Il suffit de repérer une URL ré-écrite dans le rapport fourni, puis de checker les "propriétés" de cette URL, i.e. les autres URLs y faisant un lien Philippe
Le-juge Posté 19 Janvier 2010 Auteur Posté 19 Janvier 2010 Il y a bien une 302 de l'URL ré-écrite vers l'URL dynamique. Effet secondaire de la 302 chez Google : je garde l'URL de départ et j'y associe le contenu de l'URL d'arrivée ! Ca marche pas à tous les coups, mais remember les Mangeurs de Cigogne Ca voudrait tout de meme dire qu'ils ont "downgradé" leur site en passant d'un site re-ecrit a un site full dynamique ...et aussi que ca fait un moment qu'ils se balladent avec leurs 302 degueulasses... Mais c'est pas impossible...
ams51 Posté 19 Janvier 2010 Posté 19 Janvier 2010 Ces URLs non réécrites existent depuis 2004 d'après http://web.archive.org/web/*/http://www.methodisthealth.com Ceci dit on n'a aucune donnée pour 2009, ils ont peut être testé le rewriting pendant cette année.
paolodelmare Posté 20 Janvier 2010 Posté 20 Janvier 2010 Ils utilisent (d'après les en-tetes) un Redline E/X qui (d'après la doc) réécrit toutes les requêtes/réponses HTTP.
Le-juge Posté 20 Janvier 2010 Auteur Posté 20 Janvier 2010 Oui j'avais regarde sur Archive.org, ils ont redesigne le site en 2007 mais sans changement d'URLs notable. Et apparemment ils utilisent ce CMS depuis 2004... Je ne sais pas quand est ce qu'ils ont commence la re-ecriture. Bon beny a plus qu'a les convaincre de foutre un grand coup de latte dans cette architecture pour passer a quelque chose de plus propres ... pas gagner... merci du coup de main
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant