Des bots inconnus de Google ?

hikaru59 · 24 Septembre 2008

Salut,

J'ai placé une page piège sur mon site dans le but de récolter les adresses IP des robots malveillants. Le lien vers cette page piège est en nofollow. La plupart des bons robots respecte le nofollow (googlebot, yahoo, msn), sauf quelques uns :

Les adresses IP de ces bots (IP hote inconnus) sont : 66.249.85.130, 66.249.84.12, 72.14.195.49, 72.14.193.133, etc...

et utilisent l'user-agent : Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)

D'après la base de données domaintools.com, ces IP appartiennent à google.

Mais d'habitude, leur IP hote est crawl.xxxx.googlebot ou Mediapartners-Google.

Que font ces bots inconnus de google sur nos sites à votre avis ?

Dudu · 25 Septembre 2008

Salut

Je viens de relire sur le blog officiel de Google l'article sur l'attribut rel="nofollow".

Nulle part, il n'est indiqué que les robots ne doivent pas suivre ces liens. Ils ne doivent juste pas leur donner une importance, du "link juice" comme on dit.

À mon avis, tu confonds avec le protocole d'exclusion des robots qui se fait via un fichier robots.txt

Lui, en revanche, interdit bien aux (bons) robots de parcourir certaines pages.

Pour le fait que le User Agent ne soit pas renseigné: effectivement on peut ne pas trouver ça fair-play mais personne n'est tenu d'avoir un UA explicatif, même Google.

Ils mettent les UAs qu'ils veulent

Leonick · 25 Septembre 2008

C'est peut être juste pour voir si les internautes ont bien le même contenu que le bot de google :whistling:

Dudu · 25 Septembre 2008

Leonick, tu parles de cloaking ?

À mon avis, les "vrais" cloakeurs font plutôt du cloaking sur IP que du cloaking sur UA.

Du coup, ça m'étonnerait que les moteurs s'amusent à envoyer des robots avec un UA d'Explorer 6 juste pour attraper deux ou trois black hats en culotte courte qui s'amusent à cloaker sur le User-Agent. Cette théorie fait un peu "tractopelle pour écraser une fourmi".

Enfin, à mon avis

Leonick · 25 Septembre 2008

un peu sur le cloaking et aussi pour voir si le contenu de la page change selon le referer.

Depuis plusieurs mois, j'ai des connexions de ce genre avec des ip en provenance de microsoft sur des requêtes très généralistes du genre hôtel, alors que là dessus, je suis invisible. On ne me trouve, dans ce domaine, qu'avec des requêtes à plusieurs mots clés.

mathieujava · 25 Septembre 2008

Je vais peut être dire une connerie, (ne connaissant pas assez la technologie employé par ces acteurs) mais ce ne serait pas les outils de certaines agences qui viennent crawler le web et envoie des requêtes pour faire des enquêtes concurrentiels et autres benchmark?

Leonick · 25 Septembre 2008

Non, sinon on n'aurait pas des ip en provenance de gg, mais l'ip du demandeur

hikaru59 · 25 Septembre 2008

C'est peut être juste pour voir si les internautes ont bien le même contenu que le bot de google

Ok, mais ce n'est pas une raison pour ignorer le nofollow.

Parce que le simple fait de se rendre sur la page piège vous fait bannir automatiquement du site.

PS : je sais, mais c'est la seule méthode infaillible contre les aspirateurs.

Remi · 25 Septembre 2008

Je ne pense pas qu'on puisse qualifier de "malveillant" un robot qui suit un no-follow.

Relis bien la première réponse de Dudu : il a tout dit... :cool:

hikaru59 · 25 Septembre 2008

Ce qui est sûr c'est que google avec un IP hote : crawl.xxxx.googlebot ou Mediapartners-Google

n'a jamais suivi les liens vers la page piège en nofollow.

Connexion

Des bots inconnus de Google ?

Sujets conseillés

hikaru59

Dudu

Leonick

Dudu

Leonick

mathieujava

Leonick

hikaru59

Remi

hikaru59

Veuillez vous connecter pour commenter

Parcourir

Activité