xpatval Posté 25 Juin 2006 Posté 25 Juin 2006 'Soir, L'un de mes sites reçoit la visite régulière d'une chose (robot ?) qui me laisse perplexe. Voici le résultat du whois: OrgName: Performance Systems International Inc. OrgID: PSIAddress: 1015 31st St NWCity: WashingtonStateProv: DCPostalCode: 20007Country: USNetRange: 38.0.0.0 - 38.255.255.255 CIDR: 38.0.0.0/8 NetName: PSINETANetHandle: NET-38-0-0-0-1Parent: NetType: Direct AllocationNameServer: NS.PSI.NETNameServer: NS2.PSI.NETComment: Reassignment information for this block can be found atComment: rwhois.cogentco.com 4321RegDate: 1991-04-16Updated: 2005-10-05RTechHandle: PSI-NISC-ARINRTechName: IP Allocation RTechPhone: +1-877-875-4311RTechEmail: ipalloc_AT_cogentco.com OrgAbuseHandle: COGEN-ARINOrgAbuseName: Cogent Abuse OrgAbusePhone: +1-877-875-4311OrgAbuseEmail: abuse_AT_cogentco.comOrgNOCHandle: ZC108-ARINOrgNOCName: Cogent Communications OrgNOCPhone: +1-877-875-4311OrgNOCEmail: noc_AT_cogentco.comOrgTechHandle: IPALL-ARINOrgTechName: IP Allocation OrgTechPhone: +1-877-875-4311OrgTechEmail: ipalloc_AT_cogentco.com Connaissez-vous ? xpatval
Jeanluc Posté 25 Juin 2006 Posté 25 Juin 2006 Bonjour, Je suppose que tu parles de Snapbot. Je cherche, je cherche, mais je n'ai toujours pas de certitude. La piste la plus vraisemblable mène vers snap.com, mais il n'est pas question de ce bot sur leur site. Jean-Luc
Dudu Posté 25 Juin 2006 Posté 25 Juin 2006 Salut Il est répertorié comme robot malveillant sur l'éminent Psychedelix.com qui me sert de base de référence quand je croise des user-agents pas clairs. D'ailleurs il fait partie des IPs que je vire systématiquement de chaque site: il prend plus d'une page à la seconde et ne dit pas d'où il vient, çà me suffit largement pour le considérer comme indésirable. À mon avis: take it out !
xpatval Posté 26 Juin 2006 Auteur Posté 26 Juin 2006 Ah ben merci à tous les deux car ma petite recherche sur GG m'amenait à penser que c'était une m...e. Mais sans certitude, j'avais posté. Dudu, c'est effectivement le cas, une page crawlée toutes les x secondes , sans information de provenance. Pour info (pour les autres hubiens), la plage d'IP va de 38.0.0.0 à 38.255.255.255. Et un autre qui balaie aussi les pages, (BB2), sans provenance affichée, allant de 66.234.128.0 à 66.234.159.255 J'exclus les deux. Merci, xpatval
Jeanluc Posté 26 Juin 2006 Posté 26 Juin 2006 Exclure la plage d'IP complète de PSI qui est un grand ISP américain ne me semble pas la meilleure solution. Je conseillerais plutôt de faire l'exclusion sur base du user-agent. Jean-Luc
xpatval Posté 26 Juin 2006 Auteur Posté 26 Juin 2006 Je vais robots.txtiser sur les deux user-agent en question. xpatval
captain_torche Posté 26 Juin 2006 Posté 26 Juin 2006 Heu ... je m'y connais pas encore super-bien, mais le fait d'interdire le crawl à un robot malveillant, uniquement sur le robots.txt (fichier d'indication seulement), ne me semble pas une manipulation hyper-sécurisée. Je pense qu'il vaudrait mieux le faire dans un .htaccess
Jeanluc Posté 26 Juin 2006 Posté 26 Juin 2006 Je vais robots.txtiser sur les deux user-agent en question. Je n'avais pas compris qu'il y avait deux user-agents différents ? - robots.txt : le robot le respecte, s'il le souhaite. - .htaccess : le serveur web laisse le robot visiter le site ou pas. Jean-Luc
Dudu Posté 26 Juin 2006 Posté 26 Juin 2006 Je n'avais pas compris qu'il y avait deux user-agents différents ? Il y a "snap.com beta crawler v0" et "Snapbot/1.0"(http://www.psychedelix.com/agents/index.shtml?n_s ) Pour ma part, je regarde en PHP dans l'UA si le mot "snap" est présent en sous-chaîne. Si oui: 403 Forbidden Il y a possibilité aussi de se baser sur les IPs trouvées par Psychedelix pour ces deux user-agents: 66.234.139.xxx Cela devrait permettre de virer les intrus sans toutefois perdre de réels visiteurs (mais je n'utilise pas cette technique). En tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser"
Jeanluc Posté 26 Juin 2006 Posté 26 Juin 2006 Infos recueillies à la source : Jean-Luc, In answer to your question, yes, Snapbot/1.0 does adhere to the robot exclusion standard. Brad Snap Customer Service > [brad - Mon Jun 26 09:20:12 2006]: > > Jean-Luc, > > Yes, Snapbot/1.0 is our crawler. > > I believe it adheres to the robot exclusion standard, but I will check > and get back to you. > > Brad > Snap Customer Service Je suppose que snap.com beta crawler v0 est une ancienne version de Snapbot/1.0 qui est le seul que je vois circuler actuellement. Jean-Luc
xpatval Posté 26 Juin 2006 Auteur Posté 26 Juin 2006 IEn tous cas, non Snapbot -ou quel que soit son nom- ne respecte pas les directives du robots.txt (encore une raison supplémentaire pour le raccompagner à la porte) donc inutile de vouloir le "robots.txtiser" Donc, il vaut mieux les .htaccessiser plutôt qu'utiliser le robots.txt ?
Jeanluc Posté 26 Juin 2006 Posté 26 Juin 2006 .htaccess est toujours plus sûr que robots.txt qui suppose de faire confiance au propriétaire du robot. Dans un mail reçu aujourd'hui, il affirme respecter robots.txt. A priori quand un propriétaire de robot répond aux emails, c'est bon signe, mais c'est à toi de décider. Jean-Luc
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant