Aller au contenu

Sujets conseillés

Posté

Bonjour,

J'ai de temps a autres sur mon site quelques visiteurs qui s'amusent a aspirer le site entier.

là aujourd'hui, qq un est passé en utilisant -http://www.httrack.com/ .

Il m'a utilisé en 2 minutes l'equivalent de 4 fois mon trafic horaire, aspirant l'intégralité des pages et des images.

Je suis partagé entre :

- rester gentil et laisser mon site se faire aspirer.

- bloquer les user agents des aspirateurs empecher ce genre d'histoire.

Quelle politique avez vous adopté sur vos sites respectifs?

Posté

Moi je laisse la priorité à la qualité :

Tant que les aspirateurs n'ennuient pas ma bande passante ou la santé du serveur, aucun problème. Par contre, si ils commencent à gêner mon quota ou à ralentir le serveur, alors pas de pitié.

Posté (modifié)

Salut Vincent,

Personnellement je bloque tous les aspirateurs, enfin tous ceux qui se désignent en tout cas comme tel dans leur HTTP_USER_AGENT

Car si tu as beaucoup de pages, cela peut vite gréver tes perfos.

Voici ma liste:

RewriteCond %{HTTP_USER_AGENT} .*DirectUpdate* [OR]
RewriteCond %{HTTP_USER_AGENT} .*eCatch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EmailCollector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*flashget* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*frontpage* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Haste* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTPConnect* [OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Indy\ Library* [OR]
RewriteCond %{HTTP_USER_AGENT} .*lwp-trivial* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Teleport\ Pro* [OR]
RewriteCond %{HTTP_USER_AGENT} .*vobsub* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCapture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCopier* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebDAV* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WEBsaver* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebStripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebZIP* [OR]
# RewriteCond %{HTTP_USER_AGENT} .*Wget* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Wysigot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Zeus.*Webster* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Zeus* [OR]
# bloquer Fasterfox
RewriteCond %{X-moz} ^prefetch
RewriteRule ^.*$ - [F]

Modifié par adn
Posté

merci adn, ca doit déjà en limiter pas mal

même s'il faut être conscient que ce n'est pas imparable

exemple - ils peuvent modifier leur user-agent :

Q: Some sites are captured very well, other aren't. Why?

A: There are several reasons (and solutions) for a mirror to fail. Reading the log files (ans this FAQ!) is generally a VERY good idea to figure out what occured.

  • Links within the site refers to external links, or links located in another (or upper) directories, not captured by default - the use of filters is generally THE solution, as this is one of the powerful option in HTTrack. See the above questions/answers.

  • Website 'robots.txt' rules forbide access to several website parts - you can disable them, but only with great care!

  • HTTrack is filtered (by its default User-agent IDentity) - you can change the Browser User-Agent identity to an anonymous one (MSIE, Netscape..) - here again, use this option with care, as this measure might have been put to avoid some bandwidth abuse (see also the abuse faq!)

Posté

Salut Vincent,

A toute fin utile, un mode d'emploi :) :

-www.toulouse-renaissance.net/c_outils/c_interdire_aspirateurs.htm

-www.toulouse-renaissance.net/c_outils/c_anti_aspirateurs.htm

Posté

Salut

Ma politique: je les bloque.

Pas de respect de ma bande passante d'un coté, pas de respect des aspirateurs de l'autre côté (non mais ho).

Si j'ai le temps et l'envie, je redirige tout de même vers un message explicatif.

Il y a aussi la possibilité de mettre un script PHP qui voit les différences de timestamp entre plusieurs requêtes. Si x requêtes sont faites en y secondes, alors on bloque (définitivement; pour 2 jours; pour 1 semaine....)

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...