Mincoin Posté 12 Décembre 2003 Posté 12 Décembre 2003 Bonjour, Les aspirateurs de sites génèrent un grand nombre de hits. Qu'en pensez-vous ? Comment les bloquer si vous les jugez nuisibles. Régis
Siddartha Posté 12 Décembre 2003 Posté 12 Décembre 2003 Bonjour, Effectivement, selon l'hébergement, le passage des aspirateurs de sites en tout genre, peut vite devenir trés gênant par rapport au nombre de hits qu'il génère trés rapidement et régulièrement pour certains. La meilleure façon de s'en débarrasser est de créer un petit script php sur toutes les pages de ton site qui va identifier les user-agent de ces robots et leur interdire de consulter tes pages. A toi de choisir si tu as envie définitivement de ne pas laisser les internautes aspirer ton site, ou si c'est un 'service' que tu veux leur laisser. Pour ma part, je l'interdirais. D'un la version du site aspiré lorsque l'internaute va la consulter ne sera pas à jour, et de deux, tout le monde aujourd'hui a une connexion je pense suffisante pour pouvoir revenir visiter ton site. Les aspirateurs de sites ont connu du succès a l'époque du 56k car il fallait payer le temps passé à lire le site, et donc il valait mieux effectivement aspirer. Aujourd'hui, je ne pense plus que ce soit nécessaire avec la généralisation de l'adsl (désolé pour ceux qui sont encore en 56k, mais à 10 euros/mois au plus bas pour même du 128k ADSL, y'a plus d'excuses ). Tu pourras trouver des exemples de ce type un peu partout sur le web en cherchant dans Google selon le langage que tu utilises sur ton site. Sinon, dis nous ce que tu utilises et on essaiera de te trouver ca
Anonymus Posté 13 Décembre 2003 Posté 13 Décembre 2003 Tu trouveras la solution à ton probleme à la publication du hub présente à cette url :: http://www.webmaster-hub.com/publication/article49.html et éventuellement à celle ci :: http://www.webmaster-hub.com/publication/article50.html . Si tu as des questions sur ces articles, n'hésites pas à les poser dans les forums dédiés, ou dans le forum php/mysql du forum langages du net. Nous n'hésiterons pas à te guider. Voilà. A+, Anonymus.
Tizel Posté 13 Décembre 2003 Posté 13 Décembre 2003 Aujourd'hui, je ne pense plus que ce soit nécessaire avec la généralisation de l'adsl (désolé pour ceux qui sont encore en 56k, mais à 10 euros/mois au plus bas pour même du 128k ADSL, y'a plus d'excuses wink.gif ).Aujourd'hui, je ne pense plus que ce soit nécessaire avec la généralisation de l'adsl (désolé pour ceux qui sont encore en 56k, mais à 10 euros/mois au plus bas pour même du 128k ADSL, y'a plus d'excuses wink.gif ). Tu semble oublier qu'en France, certaines zones restent non reliées à l'ADSL. Pour combien de temps encore ? Difficile à dire. Relier ces zones demandes quelques modifications dans la technologie ADSL actuelle afin d'augmenter la portée entre le central de France Telecom et l'abonné. Or, ceci peut revenir assez cher pour un nombre d'abonnés relativement limités. Quand à ceux qui n'ont tout simplement pas de connexion internet, ils sont bien contents de pouvoir aspirer les sites afin de les lires sur leur PC. Mincoin, si tu souhaite bloquer les aspirateurs, tu ne peux te baser uniquement sur les user-agents. En effet, les aspirateurs, quand ils sont bien conçu, offrent la possibilité de modifier les user-agents afin de se faire passer pour un simple navigateur. (Pour info, le user-agent est un champ contenu dans les requêtes HTTP dans lequel le navigateur dit "qui il est". Il est d'ailleur possible de modifier le user-agent d'Opera afin de le faire passer pour IE) Le mieux je pense est de limiter le nombre de requêtes que peut faire un utilisateur. Le principe, chaque fois qu'un utilisateur génére une requête, tu récupére son IP. S'il génére (par exemple) plus de 100 requêtes dans les 20 derniéres secondes, tu peut estimer qu'il s'agit d'un aspirateur. Le probléme, c'est d'écrire ce script !!! (je ne connais pas assez PHP pour le faire). Tu peut jouer sur le nombre de requêtes pour affiner ton système. Attention cependant à ne pas trop baisser le temps. Garde également en tête qu'une page, peut générer plusieurs requêtes: une pour la page, une pour la feuille de style, une pour chacune de tes zolies photos... L'autre probléme, c'est qu'avec ce système, tu risque de bloquer certains robots mal conçus. Bon courage Tizel
Tizel Posté 16 Décembre 2003 Posté 16 Décembre 2003 Je suis tombé sur un site qui annonce ceci : Avis aux utilisateurs d'aspirateurs de site web ! Ce site comporte actuellement plus de 1 milliard (!!!) de pages (dans le sens d'URL différentes appelées depuis chaque page du site) et ce nombre croît de façon exponentielle.Si l'on compte 25 Ko par page (sans les images), le poids total d'une aspiration de ce site représente 25 milliards de Ko, soit 25 millions de Mo, soit 25 000 Go, soit 25 To ! Plus que ne peut en contenir n'importe quel disque dur, sans compter le nombre d'années nécessaires à une aspiration, même en ADSL (ce grand poids s'explique par l'abus de pages dynamiques en lien avec les bases de données qui génèrent à la volée les informations contenues dans la page appelée)... Il serait donc inutile et stupide de lancer une aspiration de ce site, ce qui en plus d'être infiniment longue (puisque le nombre de pages croît plus vite que ce que ne peut en absorber une connexion), perturberait les autres utilisateurs du site en monopolisant une partie de la bande passante. Si toutefois quelqu'un tentait de s'aventurer dans l'aspiration de ce site, un message d'abuse sera envoyé de façon automatique à son fournisseur d'accès à Internet (l'envoi se déclenchant lorsqu'une même adresse IP ou un même identifiant unique d'utilisateur (IUU) accède plus de 3 000 pages en moins de 24h). Concrètement, qu'est-ce que risquent les aspirateurs ? La fermeture pure et simple de leur accès à Internet. Pourquoi ? Non respect des copyrights, flood (nombre de requètes très important en très peu de temps), ... Je doute que le site atteigne les 25 To qu'il annonce (a moins qu'il n'ai essayé d'aspirer son propre site). De plus, il faudrait demander au webmaster ce qu'il entend par croissance exponentielle. Par contre, je suis quand même en droit de me demander si l'aspiration de site est apparentée à un abus ou pas et si cela est légal ou pas. Je pratique assez réguliérement l'aspiration de certains sites que j'aime bien, ne serais-ce que pour avoir une mémoire de ceux ci au cours du temps (car les sites évoluent) et pour pouvoir les consulter lorsque je n'ai pas de connexion internet à disposition. Alors, ai-je le droit de le faire ? Et si ce n'est pas le cas, qu'es ce que j'encours ? Tizel
Anonymus Posté 16 Décembre 2003 Posté 16 Décembre 2003 (modifié) C'est du bluf. Je serais curieux de connaitre le nom de ce site, par curiosité et pour essayer. MAIS je ne suis pas sûr que t'en ais le droit. (? charte du forum ) S'il est possible de faire une page qui génère des pages, de facon infinie, en revanche, je doute fortement de la véracité de ce qu'il annonce. S'il dit vrai, il devrait envoyer un message d'alerte à tous les moteurs de recherche, puisqu'avec autant de pages, ce serait étonnant qu'ils n'aspirent pas plus de 3000 pages par jour. (puisque le nombre de pages croît plus vite que ce que ne peut en absorber une connexion), il doit etre bien étudié, son site (l'envoi se déclenchant lorsqu'une même adresse IP ou un même identifiant unique d'utilisateur Je serais curieux de connaitre la tete de mon conseillé AOL aux US lorsqu'il recevra un mail l'informant que quelqu'un regarde un site, quelque part, en France.. Il sait meme pas où c'est, la France non respect des copyrights, flood On est resposable, en tant qu'utilisateur, du nombre de hits sur un site ?? Je doute Enfin, une page stockée par un moteur de recherche ne pese pas, Dieu merci, 25 Ko. A peine 5Ko... et encore.. Ca donne vraiment envie d'essayer, vraiment.... Modifié 16 Décembre 2003 par anonymus
Raoulmapoule Posté 29 Janvier 2004 Posté 29 Janvier 2004 Salut, Pourriez vous me dire si en mettant la liste ci dessous dans mon .htacces je ne risque pas de bouffer trop de ressources ? Par ailleurs que pensez-vous de cette liste ? Comment gérez-vous les aspirateurs et autres gloutons de bande passante sur vos propres sites ? Liste
Tizel Posté 29 Janvier 2004 Posté 29 Janvier 2004 Pour prouver que le USER_AGENT n'est pas suffisant pour protéger un site, charger le logiciel HTTrack (célébre aspirateur gratuit). Concevez un nouveau projet et essayez le sur divers sites jusqu'à en trouver un protégé (qui filtre le user_agent). Ensuite, relancez le même projet en trifouillant les options ("définir les options" juste aprés avoir définit les URL à aspirer). Puis allez dans l'onglet navigateur internet et choisissez une identification qui ne laisse pas apparaitre le nom de l'aspirateur. (Par exemple, moi, j'utilise "Mozilla/4.05 [fr] (Win98; I)"). Validez le choix et lancer l'aspiration du site. Vous avez 99% de chances de réussir à aspirer le site en question. Tizel Pour le protéger, il faut donc faire ce que je préconise plus haut, avec le risque de bloquer certains robots référenceurs.
Dams Posté 29 Janvier 2004 Posté 29 Janvier 2004 En tant que professionnel de l'extraction de l''information (Et non aspirage ) je me dois de vous signifier que le User-Agent et tout sauf un référence! A par l'IP je peux vous faire un petit soft qui va interroger votre site toute les 5 minutes en ce faisant passer pour GoogleBot si vous voulez Donc il faut chercher ailleurs L'espace de consultation me semble bon... Mais c'est lourd a mettre en place et potentiellement... dangeureux. A vrai dire je pense que toutes les solutions peuvent être bien pire que le mal.
Raoulmapoule Posté 30 Janvier 2004 Posté 30 Janvier 2004 (modifié) Bon... on est bien avancé avec tout ça... Sinon juste comme ça, est-ce que vous avez une idée de la fréquence de passage de ce genre de zigotos ? Modifié 30 Janvier 2004 par Raoulmapoule
Dams Posté 30 Janvier 2004 Posté 30 Janvier 2004 Très difficile a évaluer... C'est très subjectif tout ça. A vrai dire, il faut être collé à ses stats. Et faire la différence entre crawler, Outil de ce type et internaute rapide. Car un internaute quand il sait ou il va sur ton site, ça va vite... D'ou la difficulté de création d'un algorithme pour détecter ce type d'outil.
Anonymus Posté 31 Janvier 2004 Posté 31 Janvier 2004 C'est pourquoi il faut etre 'large'. Un internaute peut faire une dizaine de pages sans s'arreter, mais si il en fait 50 en 50 secondes, c'est bien qu'il ne va nulle part. Il lui faut tout de meme lire un minimum de contenu. Les aspirateurs, bien souvent, scannent une page par seconde, si cen'est plus.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant