Etude sur le SPAM

Vincent · 12 Juin 2004

Bonjour

En tant que gestionnaire de liste de discussion, je suis beaucoup touché et interessé par le fléau du spam... je me suis intéressé de près a la question.

Sur beaucoup de site, on nous explique ce qu'il faut faire et ce qu'il est déconseillé de faire... Mais nous devons nous mefier! Je pense que les robots evoluent et comme l'algorithme de google pour le classement de ses pages, ces robots peuvent améliorer leur traitement pour réussir a dejouer nos ruses

Je me suis donc lancé dans une serie de test sur plusieurs manières de cacher son email au robot tout en la laissant visible aux visiteurs.

Maintenant que toutes les pages sont finies techniquement.

Je lance officiellement une invitation à tous les robots malveillants de la planete pour visiter mon Etude sur le SPAM

Les objectifs de mon études sont :

- tenter de définir les tehcniques les plus efficaces pour se proteger

- essayer de reperer qui en est a l'origine (en recoupant les IP visitant le site et ceux que je pourrais retirer des entetes emails de spam)

J'espère, si mon expérience s'avère concluante, en faire bénéficer le Hub, pourquoi pas par le biais d'un futur article sur le sujet.

Si vous avez des remarques constructives sur ma démarche, elle sont le bienvenues, je suis ouvert a toute amélioration possible.

LaurentDenis · 12 Juin 2004

C'est drôle, mais constructif invite immédiatement à une avalanche de remarques polies sur ce qu'on aurait fait autrement que l'auteur, ou ce qui ne va pas du tout, etc

Donc, avant de faire constructif : excellente idée !

Un test rigoureux permettrait enfin de faire la part des choses sur quelques fantasmes et légendes probables en matière de protection anti-spam par cryptage de l'adresse. Sans compter les problèmes d'utilisabilité et d'interopérabilité que certains posent.

Sinon, pour faire constructif :

- tests 6 et 7, avec le javascript désactivé (évidemment ) : plus rien ! Plus d'adresse sous une forme ou sous une autre, ce qui est un peu dur, tout de même. Avec cette méthode, il faut que l'utilisateur dénué de javascript activé puisse tout de même la copier à la main, cette adresse... Mais je suppose qu'il est prévu de le mentionner dans l'article final, bien-sûr.

- test 9 : j'obtiens un page d'erreur 404 (Opera 7.50 Win, IE6, FireFox Win... et client mail unique Opera M2)

- un test 10 à faire, variante du n°8, pour le principe : remplacer l'arobase par %40. Autant dire tout de suite que ça ne marche pas, vu la tonne de spam que je reçoit quotidiennement

**ams51** · 12 Juin 2004

J'espère qu'on verra les résultats dans le coin...

remarques :

- Il manque l'image. Parfois je mets un gif avec mon mail dessus.

- Comme laurent... erreur 404 sur le 9

Jeff · 12 Juin 2004

Bonjour,

L'utilisation d'un petit ".JS" pour encrypter le mail n'est pas mal aussi, suivre le lien ci-desous.

http://pascal.benito.free.fr/programmation/scrypt/

Et pour résoudre la désactivation de javascript on peut rajouter une petite image comme le suggère "ams51".

Jeff,

Modifié 12 Juin 2004 par Jeff

Loupilo · 12 Juin 2004

Excellent idée mais manque une formule

Les mails cryptés en HTML !

La meilleure technique actuelle est oubliée

Par exemple, l'adresse s_p_a_m.22 (je la mets pas en clair pour pas fausser les résultats) devient :

<a href="mailto:%74%65%73%74%2d%73%5f%70%5f%61%5f%6d%2e%32%32%40%67%65%6e%6e%70%64%63%2e%6e%65%74">Mailez-moi !</a>

C'est quand même incontournable :huh: ?!?!

Fonction PHP pour encoder les adresses mails :

<?php
function hex_encode ($str)
{
	$encoded = bin2hex($str); 
	$encoded = chunk_split($encoded, 2, '%'); 
	$encoded = '%'.substr($encoded, 0, strlen($encoded) - 1); 
	return $encoded; 
}
?>

[source=http://www.neokraft.net/sottises/mailencoder/index.html]

Sinon je rejoins LaurentDenis, en Javascript ben on voit pas sous Lynx le mail, c'est dommage, non ?

Pour l'instant je me suis rapatrié sur la solution donnée plus haute, faire un test dessus serait des plus interessant :up:

++

LaurentDenis · 12 Juin 2004

- Il manque l'image. Parfois je mets un gif avec mon mail dessus.

Argh ! Pas d'adresse e-mail en image, par pitié. On commence à peine un dur combat pour virer le tri entre vrais utilisateurs et robots avec un de ces fichus codes en image à recopier dans un formulaire... N'en rajoutez pas :angry:

Anonymus · 12 Juin 2004

Par exemple, l'adresse s_p_a_m.22 (je la mets pas en clair pour pas fausser les résultats) devient :
<a href="mailto:%74%65%73%74%2d%73%5f%70%5f%61%5f%6d%2e%32%32%40%67%65%6e%6e%70%64%63%2e%6e%65%74">Mailez-moi !</a>
C'est quand même incontournable ?!?!

Le problème de ces adresses est qu'elles marchent bien, tant qu'elles sont marginales. Si tous les utilisateurs de la fonction mailto se mettent à l'utiliser, alors les aspirateurs d'@ se doteront de la fonction inverse. Ceci étant valable pour toutes les formules d'encryptage.

Je rappelle que le Hub permet l'envoi d'un mail à un membre, via un formulaire, sans que l'expéditeur ne connaisse l'adresse du destinataire. Parce que le problème, c'est que c'est tout de meme l'expéditeur le premier 'récoltant' d'adresses. Autrement dit, si vous voulez que l'adresse apparaisse, d'une manière ou d'une autre, alors il est évident qu'elle peut être aspirée.

Rappelons la politique du Hub :

No spam, but mail

Anonymus.

Nudrema · 12 Juin 2004

Je ne sais pas si l'"encryptage" fonctionne réellement. Etant donné que les robots sont amenés à visiter des pages HTML, il est probable qu'ils interprètent ledit HTML (entités, %), tout comme on voit l'url en clair dans mozilla. :huh:

Ça reste à prouver, mais à mon avis, ce n'est pas si efficace que ça. Dites-le-moi si je me trompe.

LaurentDenis · 12 Juin 2004

Je rappelle que le Hub permet l'envoi d'un mail à un membre, via un formulaire, sans que l'expéditeur ne connaisse l'adresse du destinataire. Parce que le problème, c'est que c'est tout de meme l'expéditeur le premier 'récoltant' d'adresses.

Avec le défaut d'avoir à être en ligne sur le site pour utiliser le mail. ça ne pose aucun problème dans le cas d'un forum, c'est beaucoup plus problématique pour un site commercial, professionnel ou même personnel.

Puisqu'on parle déjà des questions qui sont au-delà des résultats de ces tests : l'anti-spam me semble plutôt plutôt du ressort du serveur et du client de mail avec les filtres qu'il faut, non ?

Vincent · 12 Juin 2004

Pour laurent denis :

- promis, je mettrais un petit laius sur l'histoire du javascript et de l'accessibilité dans la conclusion.

- le test 10 variante du test 8 est en ligne.

- l'erreur 404 est corrigée

pour ams51:

- je pense que le test de l'image n'est pas nécessaire. Je ne vois pas comment les robots pourraient lire les images (ou alors, ils sont bien plus avancés que je ne le pense)

pour jeff:

- j'ai un encodage en javascript dans le test 7. Ta methode y ressemble fortement.

pour loupilo:

- c'etait deja fait en partie dans le test 8 mais bon, cela ne coute rien de le faire entiererment comme tu nous le precisais... donc je l'ai rajouté dans le test 11.

pour anonymus:

- c'est justement le but de l'etude, essayer de voir si les robots comprennent ou non nos astuces de codage.

- sur le hub je vois aussi de temps en temps dans les message des adresses AT domaine DOT com... est-ce efficace? franchement, je pense que c'est possible que des robots savent remplacer le AT par _AT_ le DOT par . et de supprimer les espaces... et dans ce cas, il a un email valide!

- et puis passer par des formulaires, c'est bien, mais de temps en temps, je pense que c'est plus pertinent d'afficher le contact par mail. Personnellement, je prefere ecrire un message dans mon client courrier que d'ecrire sur un formulaire.

Pour nudrema:

-pareil, je ne sais pas si cela fonctionne reellement, j'espère pouvoir si personne ne sabrode la chose en déduire quelques conlusions.

Anonymus · 12 Juin 2004

Au sujet des AT domaine que tu mentionnes, le Hub changes automatiquement les adresses valides. En effet, nous ne tenons pas spécialement à ce que les adresses soient visibles. Plutot que de passer notre temps à modifier les adresses, un robot se charge de le faire.

Ceci dit, si un membre tient absolument à mettre son adresse en clair, elle le sera.... avec AT à la place de _AT_

Pour ce qui est des formulaires, c'est une option que je préconises. Il y a deux solutions. Soit essayer à tout prix de montrer son adresse à un interlocuteur, sans savoir qui il est, soit demander à cet interlocuteur de passer par un formulaire contact, qui, en cas de réponse, lui permettra d'avoir l'adresse mail. Cela a l'avantage de ne pas s'exposer inutilement au spam. Moi aussi je préfère passer par mon client courrier, mais je comprends la personne qui n'a pas envie de donner son adresse mail à "n'importe qui".

Voilà.

Vincent · 12 Juin 2004

meme pas 24h que la page est en ligne et le robot msnbot/0.11 a déja passé en revue 4 pages

merci le Hub

Vincent · 16 Juin 2004

Bonsoir

apres 5 jours, j'ai MSN et Yahoo qui sont passés sur mes pages mais toujours pas de trace de google! Il est toujours en greve google bot?

pourtant il a bien trouvé ce post...(voir la page en cache) et il est bien passé sur la page d'accueil de Gennpdc mais il a pas suivi ce lien : http://www.gennpdc.net/etude_spam/

why :?:

a votre avis que dois-je faire pour que cette page soit exposée aux robots des spammeurs?

Loupilo · 16 Juin 2004

Il te faut des liens vers l'étude sur le spam !

Beaucoup de liens !

Tiens, pour le coup, les mangeurs, vous pouvez lui offrir un BlackLink, vu que c'est finin !?!?

++

étude sur le spam

**Dan** · 16 Juin 2004

a votre avis que dois-je faire pour que cette page soit exposée aux robots des spammeurs?

"Patience et longueur de temps font mieux que force ni que rage" (Jean de La Fontaine)

Si tu as des liens en place, Google trouvera tes pages... en une heure, un jour ou un mois... personne ne peut prédire, c'est une question de chance.

MSNbot semble vraiment très agressif, mais il a quelques semelles à user avant de couvrir le chemin parcouru par Google.

Pour les autres robots (les spammeurs), postes ton URL en signature dans des groupes Usenet et ça ira vite :lol:

Dan

Loupilo · 27 Juin 2004

Ton étude progresse ?

Les premiers spams commencent-ils à arriver ?

Des résultats en avant-première :yoot: ?

A+

Vincent · 27 Juin 2004

C'est le calme plat ... mon site mangeur de cigogne a été trouvé beaucoup plus vite que cela...

google n'est pas encore passé, par contre msn s'acharne tous les jours dessus

yahoo et linkwalker mon aussi rendu visite.

aucun spam recu, meme pas sur l'adresse non protégée

le lien vers la page a été mis sur 2 forums usenet (par contre une enième adresse créée pour poster ces message sur usenet a été spammé en moins de 24h !)

pourtant il y a pas mal de links sur le hub ... google est en vacances?

je compte faire un réel point serieux vers la fin de l'année... si je suis spammé

Loupilo · 27 Juin 2004

Oh

Mais c'est dommage, c'est super interessant pourtant <_<

Bon je poste sur usenet avec ton URl en signature

Faîtes des liens quoi, ce serait bien d'avoir des résultats avant la fin de l'année :up:

Loupilo

Vincent · 27 Juin 2004

arf, en fait, en verifiant a l'instant, je viens de voir que googlebot est passé ce soir vers 18h !

enfin ! il est de retour notre bot adoré

merci pour les liens

Ganf · 28 Juin 2004

Je met en garde contre toutes les techniques à base de et %xx

Les marchent pour l'instant mais si ça se répend les robots ne mettront pas longtemps avant d'être un peu meilleurs au niveau du décodage HTML, ça ne leur coute pas grand chose.

Les %xx sont à éviter à tout prix. Ça ne marche pas avec tous les clients emails et surtout ça empêche les copier/coller de l'email (et ça c'est pas mal embêtant).

Vincent · 6 Juillet 2004

aujourd'hui j'ai eu ceci en referer :

http://www.google.fr/search?sourceid=navcl...dage+javascript

c'est assez comique je trouve de se retrouver premier sur ce genre de requete alors que ma page est quasiment vide de contenu

Vincent · 8 Juillet 2004

j'ai 2 trace dans mes logs qui me semble suspect :

Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; FREE; MSIECrawler)

l'IP proviens bien d'un client de proxad... il n'y as pas de referant (donc proviens pas d'un visiteur classique qui a cliqué sur ma page d'accueil) mais c'est quoi "MSIECrawler"? un petit plaisantin qui s'amuse avec des logiciels 'aspirateurs' ? Je penche pour cela parce qu'en plus il est pas vraiment futé le gars, il m'envoi des mails de test :wacko:

ensuite j'ai ceci :

???????????

donc pas de user-agent ... l'IP donne rien ... encore récupéré un testeur fou :1eye:

le referant est la page elle meme.

Ganf · 9 Juillet 2004

Si je ne me trompe pas les MSIECrawler c'est quand quelqu'un fait un "rendre disponnible hors connexion" et que le navigateur fait un peu comme un aspirateur.

Vincent · 10 Juillet 2004

j'ai fait une petite recherche a cet occasion et tu as raison, voici la page de msn qui expliqe un peu le sujet : Enhancing Offline Favorites

Par ailleurs, j'ai trouvé un super lien sur les user-agent, les aspirateurs et autre petits trucs utiles sur les htaccess : outils webmasters

Vincent · 11 Juillet 2004

voila une autre trace suspecte qui a visité 2 pages :

j'ai une IP provenant du domaine d'aol.com et qui n'a pas d'user agent, ni de referant.

ce nest pas un navigateur AOL parce que j'ai deja vu passé des navigateur AOL 7.0 etc... et la je n'ai pas la meme chose.

24h apres avec la commande 'tracert', l'IP et le chemin est toujours le meme, je ne penche pas pour une IP dynamque alloué a un abonné.

Qui a une idée sur la question?

Par contre aujourd'hui je suis en premiere position sur google avec 'encodage php' ...

cela m'etonne toujours parce que mes pages sont vraiment vide ... comme quoi a balise title a une forte prépondérance sur le contenu de la page.

Aucun spam recu a ce jour ...

Connexion

Etude sur le SPAM

Sujets conseillés

Vincent

LaurentDenis

ams51

Jeff

Loupilo

LaurentDenis

Anonymus

Nudrema

LaurentDenis

Vincent

Anonymus

Vincent

Vincent

Loupilo

Dan

Loupilo

Vincent

Loupilo

Vincent

Ganf

Vincent

Vincent

Ganf

Vincent

Vincent

Veuillez vous connecter pour commenter

Parcourir

Activité