Jeanluc Posté 25 Août 2005 Posté 25 Août 2005 Bonjour, Sur un site en hébergement mutualisé, Googlebot s'acharne à rechercher des fichiers qui n'existent pas sur mon site. J'ai constaté que ces fichiers existent dans d'autres domaines virtuels à la même adresse IP. Par exemple, Google recherche /machin.php?alpha=35 sur mon site. Ceci entraîne une erreur 404. Par contre, cette adresse existe bien sur un autre domaine hébergé à la même adresse. Le problème se présente quotidiennement et les confusions se font avec plusieurs adresses appartenant à plusieurs domaines virtuels différents. Ce qui est remarquable, c'est que seuls Googlebot et le robot Mediapartners souffrent de ce problème. MSNbot et Yahoo Slurp qui sont aussi très présents n'ont pas ce problème. Conséquences : - il arrive que Google place des pages de ces autres domaines virtuels dans les résultats de la commande site: avec le nom de mon site; - Google risque de dégrader mon site pour un nombre excessif d'erreurs 404. Google dit que c'est la faute à l'hébergeur, sans plus de précision. L'hébergeur dit qu'il ne voit pas ce qui cloche. Ceci pourrait vouloir dire que le problème ne se présente que quand un visiteur (robot) fait une série d'accès très rapides à deux domaines virtuels différents... Mais j'imagine que le serveur web doit pouvoir gérer cela, non ? Que faire ? Jean-Luc
Kimberlyclarko Posté 25 Août 2005 Posté 25 Août 2005 Essaie en mettant une page derrière l'URL (ou une redirection)... peut-être que tu choperas les BL du type d'URL en question
Jeanluc Posté 25 Août 2005 Auteur Posté 25 Août 2005 Même pas possible... Ce sont chaque jour des URL différentes. Cela va des sites éducatifs aux sites de q. Jean-Luc
Kimberlyclarko Posté 25 Août 2005 Posté 25 Août 2005 Ah oui c'est embetant... tu aurais pu mettre une règle disant : "si le fichier demandé n'existe pas sur le serveur, alors 301" mais vu que les URL crawlées changent tout les jours, je ne suis pas sur que ça soit très bon pour le référencement du site...
Anonymus Posté 25 Août 2005 Posté 25 Août 2005 Tu serais en train de dire que Google se trompe, en crawlant les IP, au lieu de crawler les noms de domaine ? Il n'y aurait pas plutot l'url des domaines qui ferait le 'petit malin', avec des redirections scrabreuses ?? Ca ressemble à des manipulations de redirection type 301,302, qui.. ne marchent pas. Si Google avait des problèmes entre un nom de domaine et une adresse IP, il y aurait longtemps qu'il aurait mis la clé sous la porte, non ? Tu as des exemples d'adresses de ce type ? (en MP, eventuellement.. )
Jeanluc Posté 25 Août 2005 Auteur Posté 25 Août 2005 @kimberlyclarko : j'ai déjà une règle dans le .htaccess qui fait une redirection 301 sur tout ce qui n'est pas destiné à www.mon-domaine.com. Au départ, c'était pour éviter les accès via mon-domaine.com (sans www). Les accès erronés de Googlebot (404) sont tous précédés d'une redirection 301. @Anonymus : je dis seulement que le problème ne se présente que pour les accès de Googlebot et Mediapartners (25 fois ces 4 derniers jours), mais je pense que c'est probablement provoqué par une configuration inhabituelle ou mal faite du serveur. Mon .htaccess contient RewriteCond %{HTTP_HOST} !^www.mon-domaine.com$ RewriteRule ^(.*) http://www.mon-domaine.com/$1 [QSA,L,R=301] Il semble que, dans certains cas, quand le visiteur est un robot de Google, mon .htaccess récupère des URL d'autres domaines virtuels du même serveur. J'ai vérifié plusieurs de ces URL et elles appartiennent à des sites différents et n'ont rien de particulier ou suspect. Jean-Luc
Anonymus Posté 25 Août 2005 Posté 25 Août 2005 .... N'y aurait il pas un problème de conflit avec ton script en perl ?? (de simulation google), qui soit dit en passant, est assez sympa (l'outil, pas le perl ) ...
Jeanluc Posté 25 Août 2005 Auteur Posté 25 Août 2005 .... N'y aurait il pas un problème de conflit avec ton script en perl ? En fait, je constate le problème sur deux sites chez cet hébergeur (les 2 sites sont sur des machines différentes). Donc rien à voir avec l'un ou l'autre de mes scripts. Je soupçonne plutôt une config mal faite ou peut-être un bug Apache. Normalement, ces 25 erreurs 404 en 4 jours seraient sans importance, mais j'ai peur qu'elles nuisent au référencement de ces sites. Jean-Luc P.S. tout le monde dit que PHP est mieux, plus rapide et tout et tout, et pourtant... Perl me convient toujours très bien.
Anonymus Posté 25 Août 2005 Posté 25 Août 2005 P.S. tout le monde dit que PHP est mieux, plus rapide et tout et tout, et pourtant... Perl me convient toujours très bien. <{POST_SNAPBACK}> Oh là !! Perl est vraiment mieux que Php, mais.. php est (peut etre) plus adapté que Perl pour tout ce qui est 'internet'. Ceci dit, pour tout ce qui nécessite un tant soi peu de puissance, Php manque parfois d'un peu de... maturité ?. [Fin du troll, y'a matière à polémique ]
Jeanluc Posté 29 Septembre 2005 Auteur Posté 29 Septembre 2005 Bonjour, J'aimerais revenir sur le sujet de départ de ce fil qui est toujours non résolu : Sur un site en hébergement mutualisé, Googlebot s'acharne à rechercher des fichiers qui n'existent pas sur mon site. J'ai constaté que ces fichiers existent dans d'autres domaines virtuels à la même adresse IP. Par exemple, Google recherche /machin.php?alpha=35 sur mon site. Ceci entraîne une erreur 404. Par contre, cette adresse existe bien sur un autre domaine hébergé à la même adresse. Le problème se présente quotidiennement et les confusions se font avec plusieurs adresses appartenant à plusieurs domaines virtuels différents. Selon Google, le problème est chez l'hébergeur. Selon l'hébergeur, le problème est lié à l'emploi de la technologie VDS de Sphera qui affirmerait que le problème est en discussion avec Google depuis des mois. J'essaie d'y voir plus clair. Avez-vous des sites hébergés dans un environnement Sphera VDS (Virtual Dedicated Server = un serveur Apache par site hébergé). Si oui, surveillez-vous votre liste d'erreurs 404 ? Chez moi, une part importante des erreurs 404 sont causées par Googlebot. Jean-Luc
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant