Dan Posté 26 Février 2006 Posté 26 Février 2006 Bonjour à tous, Depuis quelques jours, les crawlers se battent en duel sur le Hub... mais une chose que je n'avais encore jamais remarquée c'est qu'au départ d'un même crawler (même IP) je pouvais avoir à une seconde d'intervalle deux User_Agent différents. Par exemple: crawl-66-249-66-194.googlebot.com - - [26/Feb/2006:18:53:56 +0100] "GET /index.php?showtopic=21977&st=0&p=156372 HTTP/1.1" 200 9416 "-" "Mediapartners-Google/2.1"crawl-66-249-66-194.googlebot.com - - [26/Feb/2006:18:53:57 +0100] "GET /index.php?act=usercp&CODE=start_subs&method=topic&tid=21971 HTTP/1.1" 200 3328 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" Avez-vous déjà remarqué cela chez vous ? J'ai depuis ce midi près de 20 000 passages de GoogleBot avec cette IP.
Jan Posté 27 Février 2006 Posté 27 Février 2006 Des crawls "frénétiques" de Googlebot sont signalés par beaucoup de webmasters depuis deux jours, notamment sur webmasterworld. Je vois même Mediapartners s'acharner sur des pages qui n'affichent pas d'adsenses
Dan Posté 27 Février 2006 Auteur Posté 27 Février 2006 Ce ne sont pas trop les crawls frénétiques qui suscitent ma question, mais surtout le fait que sous une même IP, j'ai deux User_Agent diférents à une seconde d'intervalle.
destroyedlolo Posté 27 Février 2006 Posté 27 Février 2006 Bha, ca ne me parrait pas bizard car j'ai aussi les 2 users agents qui passent sur mon site (je n'ai pas fait gaffe a leur URL). Ce qui me parait dingue, c'est que GG s'amuse a crowler les sites 2 fois : 1 fois pour le moteur de recherche 1 seconde fois pour adsense Ca aurait ete plus econnique en ressources et pour le web en generale de ne le faire qu'un fois et/ou d'utiliser la meme base de donnee. M'enfin, ils ont surement des raisons.
Urban Posté 28 Février 2006 Posté 28 Février 2006 Ce n'est peut être pas exactement le même sujet, mais je viens de me rendre compte d'un truc. J'ai un site recent (lancé il y a quelques mois entre le dernier et l'avant dernier update de pr). Je n'ai mis mon outil de stats que depuis une semaine sur ce site. Il n'est crawlé que par "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
yvan02 Posté 1 Mars 2006 Posté 1 Mars 2006 mediapartners c'est pour les adsense et googlebot pour l'index de google
Dan Posté 1 Mars 2006 Auteur Posté 1 Mars 2006 mediapartners c'est pour les adsense et googlebot pour l'index de google Merci, je savais cela C'était pour demander si d'autres que moi avaient déjà vu 2 user_agent différents pour une même IP, pas pour savoir à quoi correspondaient les user_agent Dan
Cariboo Posté 1 Mars 2006 Posté 1 Mars 2006 Deux hypothèses : 1. Il s'agit d'une nouvelle méthode de crawl permettant de détecter le cloaking 2. Google a enfin compris que c'était très nul d'avoir deux crawls totalement séparés, l'un pour adsense, l'autre pour le moteur... Et ils ont enfin fusionnés les deux systèmes. Sauf qu'il faut toujours deux spiders mais c'est géré par le même crawler maintenant. J'ai un faible pour la deuxième hypothèse ( )
Dan Posté 1 Mars 2006 Auteur Posté 1 Mars 2006 Je pense que ta première hypothèse ne tient pas... en tout cas pas pour ceux "qui savent" et qui font du cloaking en se basant sur l'IP... J'aurais tendance à opter pour la deuxième, moi aussi
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant