IP bizarre

xpatval · 25 Juin 2006

'Soir,

L'un de mes sites reçoit la visite régulière d'une chose (robot ?) qui me laisse perplexe.

Voici le résultat du whois:


OrgName:    Performance Systems International Inc. 
OrgID:      PSI
Address:    1015 31st St NW
City:       Washington
StateProv:  DC
PostalCode: 20007
Country:    US

NetRange:   38.0.0.0 - 38.255.255.255 
CIDR:       38.0.0.0/8 
NetName:    PSINETA
NetHandle:  NET-38-0-0-0-1
Parent:     
NetType:    Direct Allocation
NameServer: NS.PSI.NET
NameServer: NS2.PSI.NET
Comment:    Reassignment information for this block can be found at
Comment:    rwhois.cogentco.com 4321
RegDate:    1991-04-16
Updated:    2005-10-05

RTechHandle: PSI-NISC-ARIN
RTechName:   IP Allocation 
RTechPhone:  +1-877-875-4311
RTechEmail:  ipalloc_AT_cogentco.com 

OrgAbuseHandle: COGEN-ARIN
OrgAbuseName:   Cogent Abuse 
OrgAbusePhone:  +1-877-875-4311
OrgAbuseEmail:  abuse_AT_cogentco.com

OrgNOCHandle: ZC108-ARIN
OrgNOCName:   Cogent Communications 
OrgNOCPhone:  +1-877-875-4311
OrgNOCEmail:  noc_AT_cogentco.com

OrgTechHandle: IPALL-ARIN
OrgTechName:   IP Allocation 
OrgTechPhone:  +1-877-875-4311
OrgTechEmail:  ipalloc_AT_cogentco.com

Connaissez-vous ?

xpatval

**Jeanluc** · 25 Juin 2006

Bonjour,

Je suppose que tu parles de Snapbot.

Je cherche, je cherche, mais je n'ai toujours pas de certitude. La piste la plus vraisemblable mène vers snap.com, mais il n'est pas question de ce bot sur leur site.

Jean-Luc

Dudu · 25 Juin 2006

Salut

Il est répertorié comme robot malveillant sur l'éminent Psychedelix.com qui me sert de base de référence quand je croise des user-agents pas clairs.

D'ailleurs il fait partie des IPs que je vire systématiquement de chaque site: il prend plus d'une page à la seconde et ne dit pas d'où il vient, çà me suffit largement pour le considérer comme indésirable.

À mon avis: take it out !

xpatval · 26 Juin 2006

Ah ben merci à tous les deux car ma petite recherche sur GG m'amenait à penser que c'était une m...e. Mais sans certitude, j'avais posté.

Dudu, c'est effectivement le cas, une page crawlée toutes les x secondes , sans information de provenance.

Pour info (pour les autres hubiens), la plage d'IP va de 38.0.0.0 à 38.255.255.255.

Et un autre qui balaie aussi les pages, (BB2), sans provenance affichée, allant de 66.234.128.0 à 66.234.159.255

J'exclus les deux.

Merci,

xpatval

**Jeanluc** · 26 Juin 2006

Exclure la plage d'IP complète de PSI qui est un grand ISP américain ne me semble pas la meilleure solution. Je conseillerais plutôt de faire l'exclusion sur base du user-agent.

Jean-Luc

xpatval · 26 Juin 2006

Je vais robots.txtiser sur les deux user-agent en question.

xpatval

**captain_torche** · 26 Juin 2006

Heu ... je m'y connais pas encore super-bien, mais le fait d'interdire le crawl à un robot malveillant, uniquement sur le robots.txt (fichier d'indication seulement), ne me semble pas une manipulation hyper-sécurisée.

Je pense qu'il vaudrait mieux le faire dans un .htaccess

**Jeanluc** · 26 Juin 2006

Je vais robots.txtiser sur les deux user-agent en question.

Je n'avais pas compris qu'il y avait deux user-agents différents ?

- robots.txt : le robot le respecte, s'il le souhaite.

- .htaccess : le serveur web laisse le robot visiter le site ou pas.

Jean-Luc

Dudu · 26 Juin 2006

Je n'avais pas compris qu'il y avait deux user-agents différents ?

Il y a "snap.com beta crawler v0" et "Snapbot/1.0"

(http://www.psychedelix.com/agents/index.shtml?n_s )

Pour ma part, je regarde en PHP dans l'UA si le mot "snap" est présent en sous-chaîne. Si oui: 403 Forbidden :cool:

Il y a possibilité aussi de se baser sur les IPs trouvées par Psychedelix pour ces deux user-agents: 66.234.139.xxx

Cela devrait permettre de virer les intrus sans toutefois perdre de réels visiteurs (mais je n'utilise pas cette technique).

En tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser"

**Jeanluc** · 26 Juin 2006

Infos recueillies à la source :

Jean-Luc,

In answer to your question, yes, Snapbot/1.0 does adhere to the robot

exclusion standard.

Brad

Snap Customer Service

> [brad - Mon Jun 26 09:20:12 2006]:

>

> Jean-Luc,

>

> Yes, Snapbot/1.0 is our crawler.

>

> I believe it adheres to the robot exclusion standard, but I will check

> and get back to you.

>

> Brad

> Snap Customer Service

Je suppose que snap.com beta crawler v0 est une ancienne version de Snapbot/1.0 qui est le seul que je vois circuler actuellement.

Jean-Luc

xpatval · 26 Juin 2006

IEn tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser"

Donc, il vaut mieux les .htaccessiser plutôt qu'utiliser le robots.txt ?

**Jeanluc** · 26 Juin 2006

.htaccess est toujours plus sûr que robots.txt qui suppose de faire confiance au propriétaire du robot. Dans un mail reçu aujourd'hui, il affirme respecter robots.txt. A priori quand un propriétaire de robot répond aux emails, c'est bon signe, mais c'est à toi de décider.

Jean-Luc

Connexion

IP bizarre

Sujets conseillés

xpatval

Jeanluc

Dudu

xpatval

Jeanluc

xpatval

captain_torche

Jeanluc

Dudu

Jeanluc

xpatval

Jeanluc

Veuillez vous connecter pour commenter

Parcourir

Activité