Aller au contenu

Sujets conseillés

Posté

Bonjour,

Les aspirateurs de sites génèrent un grand nombre de hits.

Qu'en pensez-vous ?

Comment les bloquer si vous les jugez nuisibles.

Régis

Posté

Bonjour,

Effectivement, selon l'hébergement, le passage des aspirateurs de sites en tout genre, peut vite devenir trés gênant par rapport au nombre de hits qu'il génère trés rapidement et régulièrement pour certains.

La meilleure façon de s'en débarrasser est de créer un petit script php sur toutes les pages de ton site qui va identifier les user-agent de ces robots et leur interdire de consulter tes pages.

A toi de choisir si tu as envie définitivement de ne pas laisser les internautes aspirer ton site, ou si c'est un 'service' que tu veux leur laisser.

Pour ma part, je l'interdirais.

D'un la version du site aspiré lorsque l'internaute va la consulter ne sera pas à jour, et de deux, tout le monde aujourd'hui a une connexion je pense suffisante pour pouvoir revenir visiter ton site. Les aspirateurs de sites ont connu du succès a l'époque du 56k car il fallait payer le temps passé à lire le site, et donc il valait mieux effectivement aspirer. Aujourd'hui, je ne pense plus que ce soit nécessaire avec la généralisation de l'adsl (désolé pour ceux qui sont encore en 56k, mais à 10 euros/mois au plus bas pour même du 128k ADSL, y'a plus d'excuses ;) ).

Tu pourras trouver des exemples de ce type un peu partout sur le web en cherchant dans Google selon le langage que tu utilises sur ton site. Sinon, dis nous ce que tu utilises et on essaiera de te trouver ca B)

Posté

Tu trouveras la solution à ton probleme à la publication du hub présente à cette url :: http://www.webmaster-hub.com/publication/article49.html et éventuellement à celle ci :: http://www.webmaster-hub.com/publication/article50.html . Si tu as des questions sur ces articles, n'hésites pas à les poser dans les forums dédiés, ou dans le forum php/mysql du forum langages du net. Nous n'hésiterons pas à te guider. Voilà.

A+, Anonymus.

Posté
Aujourd'hui, je ne pense plus que ce soit nécessaire avec la généralisation de l'adsl (désolé pour ceux qui sont encore en 56k, mais à 10 euros/mois au plus bas pour même du 128k ADSL, y'a plus d'excuses wink.gif ).Aujourd'hui, je ne pense plus que ce soit nécessaire avec la généralisation de l'adsl (désolé pour ceux qui sont encore en 56k, mais à 10 euros/mois au plus bas pour même du 128k ADSL, y'a plus d'excuses wink.gif ).

Tu semble oublier qu'en France, certaines zones restent non reliées à l'ADSL. Pour combien de temps encore ? Difficile à dire. Relier ces zones demandes quelques modifications dans la technologie ADSL actuelle afin d'augmenter la portée entre le central de France Telecom et l'abonné. Or, ceci peut revenir assez cher pour un nombre d'abonnés relativement limités.

Quand à ceux qui n'ont tout simplement pas de connexion internet, ils sont bien contents de pouvoir aspirer les sites afin de les lires sur leur PC.

Mincoin, si tu souhaite bloquer les aspirateurs, tu ne peux te baser uniquement sur les user-agents. En effet, les aspirateurs, quand ils sont bien conçu, offrent la possibilité de modifier les user-agents afin de se faire passer pour un simple navigateur. (Pour info, le user-agent est un champ contenu dans les requêtes HTTP dans lequel le navigateur dit "qui il est". Il est d'ailleur possible de modifier le user-agent d'Opera afin de le faire passer pour IE)

Le mieux je pense est de limiter le nombre de requêtes que peut faire un utilisateur. Le principe, chaque fois qu'un utilisateur génére une requête, tu récupére son IP. S'il génére (par exemple) plus de 100 requêtes dans les 20 derniéres secondes, tu peut estimer qu'il s'agit d'un aspirateur. Le probléme, c'est d'écrire ce script !!! (je ne connais pas assez PHP pour le faire). Tu peut jouer sur le nombre de requêtes pour affiner ton système. Attention cependant à ne pas trop baisser le temps. Garde également en tête qu'une page, peut générer plusieurs requêtes: une pour la page, une pour la feuille de style, une pour chacune de tes zolies photos... L'autre probléme, c'est qu'avec ce système, tu risque de bloquer certains robots mal conçus.

Bon courage

Tizel

Posté

Je suis tombé sur un site qui annonce ceci :

Avis aux utilisateurs d'aspirateurs de site web ! Ce site comporte actuellement plus de 1 milliard (!!!) de pages (dans le sens d'URL différentes appelées depuis chaque page du site) et ce nombre croît de façon exponentielle.

Si l'on compte 25 Ko par page (sans les images), le poids total d'une aspiration de ce site représente 25 milliards de Ko, soit 25 millions de Mo, soit 25 000 Go, soit 25 To ! Plus que ne peut en contenir n'importe quel disque dur, sans compter le nombre d'années nécessaires à une aspiration, même en ADSL (ce grand poids s'explique par l'abus de pages dynamiques en lien avec les bases de données qui génèrent à la volée les informations contenues dans la page appelée)...

Il serait donc inutile et stupide de lancer une aspiration de ce site, ce qui en plus d'être infiniment longue (puisque le nombre de pages croît plus vite que ce que ne peut en absorber une connexion), perturberait les autres utilisateurs du site en monopolisant une partie de la bande passante.

Si toutefois quelqu'un tentait de s'aventurer dans l'aspiration de ce site, un message d'abuse sera envoyé de façon automatique à son fournisseur d'accès à Internet (l'envoi se déclenchant lorsqu'une même adresse IP ou un même identifiant unique d'utilisateur (IUU) accède plus de 3 000 pages en moins de 24h).

Concrètement, qu'est-ce que risquent les aspirateurs ? La fermeture pure et simple de leur accès à Internet. Pourquoi ? Non respect des copyrights, flood (nombre de requètes très important en très peu de temps), ...

Je doute que le site atteigne les 25 To qu'il annonce (a moins qu'il n'ai essayé d'aspirer son propre site). De plus, il faudrait demander au webmaster ce qu'il entend par croissance exponentielle.

Par contre, je suis quand même en droit de me demander si l'aspiration de site est apparentée à un abus ou pas et si cela est légal ou pas. Je pratique assez réguliérement l'aspiration de certains sites que j'aime bien, ne serais-ce que pour avoir une mémoire de ceux ci au cours du temps (car les sites évoluent) et pour pouvoir les consulter lorsque je n'ai pas de connexion internet à disposition.

Alors, ai-je le droit de le faire ? Et si ce n'est pas le cas, qu'es ce que j'encours ?

Tizel

Posté (modifié)

C'est du bluf.

Je serais curieux de connaitre le nom de ce site, par curiosité et pour essayer. :) MAIS je ne suis pas sûr que t'en ais le droit. (? charte du forum )

S'il est possible de faire une page qui génère des pages, de facon infinie, en revanche, je doute fortement de la véracité de ce qu'il annonce.

S'il dit vrai, il devrait envoyer un message d'alerte à tous les moteurs de recherche, puisqu'avec autant de pages, ce serait étonnant qu'ils n'aspirent pas plus de 3000 pages par jour.

(puisque le nombre de pages croît plus vite que ce que ne peut en absorber une connexion),

il doit etre bien étudié, son site :D

(l'envoi se déclenchant lorsqu'une même adresse IP ou un même identifiant unique d'utilisateur

Je serais curieux de connaitre la tete de mon conseillé AOL aux US lorsqu'il recevra un mail l'informant que quelqu'un regarde un site, quelque part, en France.. Il sait meme pas où c'est, la France :D

non respect des copyrights, flood
On est resposable, en tant qu'utilisateur, du nombre de hits sur un site ?? Je doute :D

Enfin, une page stockée par un moteur de recherche ne pese pas, Dieu merci, 25 Ko. A peine 5Ko... et encore..

Ca donne vraiment envie d'essayer, vraiment....

Modifié par anonymus
  • 1 month later...
Posté

Salut,

Pourriez vous me dire si en mettant la liste ci dessous dans mon .htacces je ne risque pas de bouffer trop de ressources ?

Par ailleurs que pensez-vous de cette liste ?

Comment gérez-vous les aspirateurs et autres gloutons de bande passante sur vos propres sites ?

Liste

Posté

Pour prouver que le USER_AGENT n'est pas suffisant pour protéger un site, charger le logiciel HTTrack (célébre aspirateur gratuit). Concevez un nouveau projet et essayez le sur divers sites jusqu'à en trouver un protégé (qui filtre le user_agent).

Ensuite, relancez le même projet en trifouillant les options ("définir les options" juste aprés avoir définit les URL à aspirer). Puis allez dans l'onglet navigateur internet et choisissez une identification qui ne laisse pas apparaitre le nom de l'aspirateur. (Par exemple, moi, j'utilise "Mozilla/4.05 [fr] (Win98; I)").

Validez le choix et lancer l'aspiration du site. Vous avez 99% de chances de réussir à aspirer le site en question.

Tizel

Pour le protéger, il faut donc faire ce que je préconise plus haut, avec le risque de bloquer certains robots référenceurs.

Posté

En tant que professionnel de l'extraction de l''information (Et non aspirage ;)) je me dois de vous signifier que le User-Agent et tout sauf un référence!

A par l'IP je peux vous faire un petit soft qui va interroger votre site toute les 5 minutes en ce faisant passer pour GoogleBot si vous voulez ;)

Donc il faut chercher ailleurs :)

L'espace de consultation me semble bon... Mais c'est lourd a mettre en place et potentiellement... dangeureux.

A vrai dire je pense que toutes les solutions peuvent être bien pire que le mal.

Posté (modifié)

Bon... on est bien avancé avec tout ça... :wacko:

Sinon juste comme ça, est-ce que vous avez une idée de la fréquence de passage de ce genre de zigotos ?

Modifié par Raoulmapoule
Posté

Très difficile a évaluer... C'est très subjectif tout ça.

A vrai dire, il faut être collé à ses stats. Et faire la différence entre crawler, Outil de ce type et internaute rapide. Car un internaute quand il sait ou il va sur ton site, ça va vite... :D

D'ou la difficulté de création d'un algorithme pour détecter ce type d'outil.

Posté

C'est pourquoi il faut etre 'large'. Un internaute peut faire une dizaine de pages sans s'arreter, mais si il en fait 50 en 50 secondes, c'est bien qu'il ne va nulle part. Il lui faut tout de meme lire un minimum de contenu.

Les aspirateurs, bien souvent, scannent une page par seconde, si cen'est plus.

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...