Aller au contenu

Sujets conseillés

Posté

'Soir,

L'un de mes sites reçoit la visite régulière d'une chose (robot ?) qui me laisse perplexe.

Voici le résultat du whois:


OrgName: Performance Systems International Inc.
OrgID: PSI
Address: 1015 31st St NW
City: Washington
StateProv: DC
PostalCode: 20007
Country: US

NetRange: 38.0.0.0 - 38.255.255.255
CIDR: 38.0.0.0/8
NetName: PSINETA
NetHandle: NET-38-0-0-0-1
Parent:
NetType: Direct Allocation
NameServer: NS.PSI.NET
NameServer: NS2.PSI.NET
Comment: Reassignment information for this block can be found at
Comment: rwhois.cogentco.com 4321
RegDate: 1991-04-16
Updated: 2005-10-05

RTechHandle: PSI-NISC-ARIN
RTechName: IP Allocation
RTechPhone: +1-877-875-4311
RTechEmail: ipalloc_AT_cogentco.com

OrgAbuseHandle: COGEN-ARIN
OrgAbuseName: Cogent Abuse
OrgAbusePhone: +1-877-875-4311
OrgAbuseEmail: abuse_AT_cogentco.com

OrgNOCHandle: ZC108-ARIN
OrgNOCName: Cogent Communications
OrgNOCPhone: +1-877-875-4311
OrgNOCEmail: noc_AT_cogentco.com

OrgTechHandle: IPALL-ARIN
OrgTechName: IP Allocation
OrgTechPhone: +1-877-875-4311
OrgTechEmail: ipalloc_AT_cogentco.com

Connaissez-vous ?

xpatval

Posté

Bonjour,

Je suppose que tu parles de Snapbot.

Je cherche, je cherche, mais je n'ai toujours pas de certitude. La piste la plus vraisemblable mène vers snap.com, mais il n'est pas question de ce bot sur leur site.

Jean-Luc

Posté

Salut

Il est répertorié comme robot malveillant sur l'éminent Psychedelix.com qui me sert de base de référence quand je croise des user-agents pas clairs.

D'ailleurs il fait partie des IPs que je vire systématiquement de chaque site: il prend plus d'une page à la seconde et ne dit pas d'où il vient, çà me suffit largement pour le considérer comme indésirable.

À mon avis: take it out ! ;)

Posté

Ah ben merci à tous les deux car ma petite recherche sur GG m'amenait à penser que c'était une m...e. Mais sans certitude, j'avais posté.

Dudu, c'est effectivement le cas, une page crawlée toutes les x secondes , sans information de provenance.

Pour info (pour les autres hubiens), la plage d'IP va de 38.0.0.0 à 38.255.255.255.

Et un autre qui balaie aussi les pages, (BB2), sans provenance affichée, allant de 66.234.128.0 à 66.234.159.255

J'exclus les deux.

Merci,

xpatval

Posté

Exclure la plage d'IP complète de PSI qui est un grand ISP américain ne me semble pas la meilleure solution. Je conseillerais plutôt de faire l'exclusion sur base du user-agent.

Jean-Luc

Posté

Je vais robots.txtiser sur les deux user-agent en question. ;)

xpatval

Posté

Heu ... je m'y connais pas encore super-bien, mais le fait d'interdire le crawl à un robot malveillant, uniquement sur le robots.txt (fichier d'indication seulement), ne me semble pas une manipulation hyper-sécurisée.

Je pense qu'il vaudrait mieux le faire dans un .htaccess

Posté
Je vais robots.txtiser sur les deux user-agent en question.

Je n'avais pas compris qu'il y avait deux user-agents différents ?

- robots.txt : le robot le respecte, s'il le souhaite.

- .htaccess : le serveur web laisse le robot visiter le site ou pas.

Jean-Luc

Posté
Je n'avais pas compris qu'il y avait deux user-agents différents ?
Il y a "snap.com beta crawler v0" et "Snapbot/1.0"

(http://www.psychedelix.com/agents/index.shtml?n_s :))

Pour ma part, je regarde en PHP dans l'UA si le mot "snap" est présent en sous-chaîne. Si oui: 403 Forbidden :cool:

Il y a possibilité aussi de se baser sur les IPs trouvées par Psychedelix pour ces deux user-agents: 66.234.139.xxx

Cela devrait permettre de virer les intrus sans toutefois perdre de réels visiteurs (mais je n'utilise pas cette technique).

En tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser" ;)

Posté

Infos recueillies à la source :

Jean-Luc,

In answer to your question, yes, Snapbot/1.0 does adhere to the robot

exclusion standard.

Brad

Snap Customer Service

> [brad - Mon Jun 26 09:20:12 2006]:

>

> Jean-Luc,

>

> Yes, Snapbot/1.0 is our crawler.

>

> I believe it adheres to the robot exclusion standard, but I will check

> and get back to you.

>

> Brad

> Snap Customer Service

Je suppose que snap.com beta crawler v0 est une ancienne version de Snapbot/1.0 qui est le seul que je vois circuler actuellement.

Jean-Luc

Posté
IEn tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser" ;)

Donc, il vaut mieux les .htaccessiser plutôt qu'utiliser le robots.txt ?

Posté

.htaccess est toujours plus sûr que robots.txt qui suppose de faire confiance au propriétaire du robot. Dans un mail reçu aujourd'hui, il affirme respecter robots.txt. A priori quand un propriétaire de robot répond aux emails, c'est bon signe, mais c'est à toi de décider.

Jean-Luc

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...