Urban Posté 8 Novembre 2005 Posté 8 Novembre 2005 A ma connaissance, il y a deux agents googlebot connus : - Googlebot/2.1 (+http://www.google.com/bot.html) - Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Jusqu'a Jagger1, je n'avais pas beaucoup de visites du second. Par contre j'ai eu un bon paquets de requètes avec cet agent entre Jagger1 et le début de Jagger3, depuis j'observe un retour à la normale. Je me demandais à quoi pouvait bien servir cet agent. Je ne le sais bien entendu toujours pas ;-), mais j'ai l'impression qu'il ne sert pas à indexer les pages. En effet, il a pris des pages qui ne sont pas dans l'index google. Quand c'est le googlebot "normal" qui le fait, 2-3 jours après, les pages sont dans l'index. La, les pages ne le sont toujours pas après 15 jours. J'avais déjà vu l'hypothèse qu'il servait à detecter le cloacking (uniquement sur l'agent vu qu'il est sur la même plage d'ip, ce qui n'est pas très malin). Mais dans ce cas pourquoi prendrais-t'il des pages qui ne sont pas encore indexé ? Je me rend compte que mon message aporte plus de questions que de réponses, mais bon ;-)
Jeanluc Posté 8 Novembre 2005 Posté 8 Novembre 2005 J'avais déjà vu l'hypothèse qu'il servait à detecter le cloacking (uniquement sur l'agent vu qu'il est sur la même plage d'ip, ce qui n'est pas très malin). Sur un de mes sites, depuis plusieurs mois, un problème technique n'affecte que Googlebot et Google Mediapartners (le robot d'AdSense). Je viens de constater qu'un visiteur dont le User Agent est Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) était aussi affecté par le problème. J'ai recherché son adresse IP. Elle appartient à Google, Inc., mais elle est toute différente des adresses habituelles de Googlebot. Comme quoi, Google n'est pas si bête et il lutte effectivement contre le cloacking. Jean-Luc
Jan Posté 8 Novembre 2005 Posté 8 Novembre 2005 Bonjour, Le bot Mozilla ne sert en effet pas à indexer les pages. Du moins, les pages en cache dans google sont toutes le résultat des crawls de Googlebot. On en avait parlé à http://www.webmaster-hub.com/index.php?showtopic=12721 Mon avis est que Mozilla servirait à vérifier si des pages ont évolué depuis le dernier crawl, ou la présence de liens. Une sorte d'informateur de Googlebot qui permettrait de lui indiquer s'il doit crawler certaines pages.
Urban Posté 8 Novembre 2005 Auteur Posté 8 Novembre 2005 J'étais tombé sur ce sujet il y a 2 mois, mais je ne me souvenais plus que la discution était aussi affirmative sur le fait que le user agent en mozilla n'indexe pas. Sur mon site qui est peu crawlé (ce qui me permet de suivre plus facilement ce qu'il se passe, en même temps comportement pour le crawl des gros sites est surement assez différent), Googlebot "normal" crawl la homepage une fois ou deux par jour. Et fait un gros crawl de 50-100 pages tous les 15 jours. Il fait ça de façon méthodique, par profondeur, commence par la structure du site (menu, ...), puis les pages linkées... Parfois il prend regulièrement une page toute les 5 minutes, avec à chaque fois une ip différente. Le Googlebot mozilla utilise la même ip plusieurs jours de suite, et prend quelques pages tous les jours mais des façon visiblement assez aléatoire (il crawl un peu comme slurp je trouve). Enfin ça c'était entre Jagger 1 et avant le début de Jager 3. En temps normal, il crawl très rarement. Comme il prend des pages qui ne sont pas forcement dans l'index, je ne comprend pas trop son utilité.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant