Aller au contenu

Sujets conseillés

Posté

Bonjour

En tant que gestionnaire de liste de discussion, je suis beaucoup touché et interessé par le fléau du spam... je me suis intéressé de près a la question.

Sur beaucoup de site, on nous explique ce qu'il faut faire et ce qu'il est déconseillé de faire... Mais nous devons nous mefier! Je pense que les robots evoluent et comme l'algorithme de google pour le classement de ses pages, ces robots peuvent améliorer leur traitement pour réussir a dejouer nos ruses

Je me suis donc lancé dans une serie de test sur plusieurs manières de cacher son email au robot tout en la laissant visible aux visiteurs.

Maintenant que toutes les pages sont finies techniquement.

Je lance officiellement une invitation à tous les robots malveillants de la planete pour visiter mon Etude sur le SPAM

Les objectifs de mon études sont :

- tenter de définir les tehcniques les plus efficaces pour se proteger

- essayer de reperer qui en est a l'origine (en recoupant les IP visitant le site et ceux que je pourrais retirer des entetes emails de spam)

J'espère, si mon expérience s'avère concluante, en faire bénéficer le Hub, pourquoi pas par le biais d'un futur article sur le sujet.

Si vous avez des remarques constructives sur ma démarche, elle sont le bienvenues, je suis ouvert a toute amélioration possible.

Posté

C'est drôle, mais constructif invite immédiatement à une avalanche de remarques polies sur ce qu'on aurait fait autrement que l'auteur, ou ce qui ne va pas du tout, etc :D

Donc, avant de faire constructif : excellente idée !

Un test rigoureux permettrait enfin de faire la part des choses sur quelques fantasmes et légendes probables en matière de protection anti-spam par cryptage de l'adresse. Sans compter les problèmes d'utilisabilité et d'interopérabilité que certains posent.

Sinon, pour faire constructif :

- tests 6 et 7, avec le javascript désactivé (évidemment :P ) : plus rien ! Plus d'adresse sous une forme ou sous une autre, ce qui est un peu dur, tout de même. Avec cette méthode, il faut que l'utilisateur dénué de javascript activé puisse tout de même la copier à la main, cette adresse... Mais je suppose qu'il est prévu de le mentionner dans l'article final, bien-sûr.

- test 9 : j'obtiens un page d'erreur 404 (Opera 7.50 Win, IE6, FireFox Win... et client mail unique Opera M2)

- un test 10 à faire, variante du n°8, pour le principe : remplacer l'arobase par %40. Autant dire tout de suite que ça ne marche pas, vu la tonne de spam que je reçoit quotidiennement ;)

Posté

J'espère qu'on verra les résultats dans le coin...

remarques :

- Il manque l'image. Parfois je mets un gif avec mon mail dessus.

- Comme laurent... erreur 404 sur le 9

Posté (modifié)

Bonjour,

L'utilisation d'un petit ".JS" pour encrypter le mail n'est pas mal aussi, suivre le lien ci-desous. ;)

http://pascal.benito.free.fr/programmation/scrypt/

Et pour résoudre la désactivation de javascript on peut rajouter une petite image comme le suggère "ams51".

Jeff, B)

Modifié par Jeff
Posté

Excellent idée mais manque une formule :(

Les mails cryptés en HTML !

La meilleure technique actuelle est oubliée :o:o

Par exemple, l'adresse s_p_a_m.22 (je la mets pas en clair pour pas fausser les résultats) devient :

<a href="mailto:%74%65%73%74%2d%73%5f%70%5f%61%5f%6d%2e%32%32%40%67%65%6e%6e%70%64%63%2e%6e%65%74">Mailez-moi !</a>

C'est quand même incontournable :huh: ?!?!

Fonction PHP pour encoder les adresses mails :

<?php
function hex_encode ($str)
{
$encoded = bin2hex($str);
$encoded = chunk_split($encoded, 2, '%');
$encoded = '%'.substr($encoded, 0, strlen($encoded) - 1);
return $encoded;
}
?>

[source=http://www.neokraft.net/sottises/mailencoder/index.html]

Sinon je rejoins LaurentDenis, en Javascript ben on voit pas sous Lynx le mail, c'est dommage, non ?

Pour l'instant je me suis rapatrié sur la solution donnée plus haute, faire un test dessus serait des plus interessant :up:

++ ;)

Posté
- Il manque l'image. Parfois je mets un gif avec mon mail dessus.

Argh ! Pas d'adresse e-mail en image, par pitié. On commence à peine un dur combat pour virer le tri entre vrais utilisateurs et robots avec un de ces fichus codes en image à recopier dans un formulaire... N'en rajoutez pas :angry:

Posté
Par exemple, l'adresse s_p_a_m.22 (je la mets pas en clair pour pas fausser les résultats) devient :

<a href="mailto:%74%65%73%74%2d%73%5f%70%5f%61%5f%6d%2e%32%32%40%67%65%6e%6e%70%64%63%2e%6e%65%74">Mailez-moi !</a>

C'est quand même incontournable :huh: ?!?!

Le problème de ces adresses est qu'elles marchent bien, tant qu'elles sont marginales. Si tous les utilisateurs de la fonction mailto se mettent à l'utiliser, alors les aspirateurs d'@ se doteront de la fonction inverse. Ceci étant valable pour toutes les formules d'encryptage.

Je rappelle que le Hub permet l'envoi d'un mail à un membre, via un formulaire, sans que l'expéditeur ne connaisse l'adresse du destinataire. Parce que le problème, c'est que c'est tout de meme l'expéditeur le premier 'récoltant' d'adresses. Autrement dit, si vous voulez que l'adresse apparaisse, d'une manière ou d'une autre, alors il est évident qu'elle peut être aspirée.

Rappelons la politique du Hub :

No spam, but mail :D

Anonymus.

Posté

Je ne sais pas si l'"encryptage" fonctionne réellement. Etant donné que les robots sont amenés à visiter des pages HTML, il est probable qu'ils interprètent ledit HTML (entités, %), tout comme on voit l'url en clair dans mozilla. :huh:

Ça reste à prouver, mais à mon avis, ce n'est pas si efficace que ça. Dites-le-moi si je me trompe. :)

Posté
Je rappelle que le Hub permet l'envoi d'un mail à un membre, via un formulaire, sans que l'expéditeur ne connaisse l'adresse du destinataire. Parce que le problème, c'est que c'est tout de meme l'expéditeur le premier 'récoltant' d'adresses.

Avec le défaut d'avoir à être en ligne sur le site pour utiliser le mail. ça ne pose aucun problème dans le cas d'un forum, c'est beaucoup plus problématique pour un site commercial, professionnel ou même personnel.

Puisqu'on parle déjà des questions qui sont au-delà des résultats de ces tests : l'anti-spam me semble plutôt plutôt du ressort du serveur et du client de mail avec les filtres qu'il faut, non ?

Posté

Pour laurent denis :

- promis, je mettrais un petit laius sur l'histoire du javascript et de l'accessibilité dans la conclusion.

- le test 10 variante du test 8 est en ligne.

- l'erreur 404 est corrigée

pour ams51:

- je pense que le test de l'image n'est pas nécessaire. Je ne vois pas comment les robots pourraient lire les images (ou alors, ils sont bien plus avancés que je ne le pense)

pour jeff:

- j'ai un encodage en javascript dans le test 7. Ta methode y ressemble fortement.

pour loupilo:

- c'etait deja fait en partie dans le test 8 mais bon, cela ne coute rien de le faire entiererment comme tu nous le precisais... donc je l'ai rajouté dans le test 11.

pour anonymus:

- c'est justement le but de l'etude, essayer de voir si les robots comprennent ou non nos astuces de codage.

- sur le hub je vois aussi de temps en temps dans les message des adresses AT domaine DOT com... est-ce efficace? franchement, je pense que c'est possible que des robots savent remplacer le AT par _AT_ le DOT par . et de supprimer les espaces... et dans ce cas, il a un email valide!

- et puis passer par des formulaires, c'est bien, mais de temps en temps, je pense que c'est plus pertinent d'afficher le contact par mail. Personnellement, je prefere ecrire un message dans mon client courrier que d'ecrire sur un formulaire.

Pour nudrema:

-pareil, je ne sais pas si cela fonctionne reellement, j'espère pouvoir si personne ne sabrode la chose en déduire quelques conlusions.

Posté

Au sujet des AT domaine que tu mentionnes, le Hub changes automatiquement les adresses valides. En effet, nous ne tenons pas spécialement à ce que les adresses soient visibles. Plutot que de passer notre temps à modifier les adresses, un robot se charge de le faire.

Ceci dit, si un membre tient absolument à mettre son adresse en clair, elle le sera.... avec AT à la place de _AT_

Pour ce qui est des formulaires, c'est une option que je préconises. Il y a deux solutions. Soit essayer à tout prix de montrer son adresse à un interlocuteur, sans savoir qui il est, soit demander à cet interlocuteur de passer par un formulaire contact, qui, en cas de réponse, lui permettra d'avoir l'adresse mail. Cela a l'avantage de ne pas s'exposer inutilement au spam. Moi aussi je préfère passer par mon client courrier, mais je comprends la personne qui n'a pas envie de donner son adresse mail à "n'importe qui".

Voilà.

Posté

meme pas 24h que la page est en ligne et le robot msnbot/0.11 a déja passé en revue 4 pages

merci le Hub :)

Posté

Bonsoir

apres 5 jours, j'ai MSN et Yahoo qui sont passés sur mes pages mais toujours pas de trace de google! Il est toujours en greve google bot?

pourtant il a bien trouvé ce post...(voir la page en cache) et il est bien passé sur la page d'accueil de Gennpdc mais il a pas suivi ce lien : http://www.gennpdc.net/etude_spam/

why :?:

a votre avis que dois-je faire pour que cette page soit exposée aux robots des spammeurs?

Posté
a votre avis que dois-je faire pour que cette page soit exposée aux robots des spammeurs?

"Patience et longueur de temps font mieux que force ni que rage" (Jean de La Fontaine)

Si tu as des liens en place, Google trouvera tes pages... en une heure, un jour ou un mois... personne ne peut prédire, c'est une question de chance.

MSNbot semble vraiment très agressif, mais il a quelques semelles à user avant de couvrir le chemin parcouru par Google. ;)

Pour les autres robots (les spammeurs), postes ton URL en signature dans des groupes Usenet et ça ira vite :lol:

Dan

  • 2 semaines plus tard...
Posté

Ton étude progresse ?

Les premiers spams commencent-ils à arriver ?

Des résultats en avant-première :yoot: ?

A+ ;)

Posté

C'est le calme plat ... mon site mangeur de cigogne a été trouvé beaucoup plus vite que cela...

google n'est pas encore passé, par contre msn s'acharne tous les jours dessus ;)

yahoo et linkwalker mon aussi rendu visite.

aucun spam recu, meme pas sur l'adresse non protégée

le lien vers la page a été mis sur 2 forums usenet (par contre une enième adresse créée pour poster ces message sur usenet a été spammé en moins de 24h !)

pourtant il y a pas mal de links sur le hub ... google est en vacances?

je compte faire un réel point serieux vers la fin de l'année... si je suis spammé ;)

Posté

Oh :o

Mais c'est dommage, c'est super interessant pourtant <_<

Bon je poste sur usenet avec ton URl en signature B)

Faîtes des liens quoi, ce serait bien d'avoir des résultats avant la fin de l'année :up:

Loupilo

Posté

arf, en fait, en verifiant a l'instant, je viens de voir que googlebot est passé ce soir vers 18h !

enfin ! il est de retour notre bot adoré ;)

merci pour les liens :P

Posté

Je met en garde contre toutes les techniques à base de et %xx

Les marchent pour l'instant mais si ça se répend les robots ne mettront pas longtemps avant d'être un peu meilleurs au niveau du décodage HTML, ça ne leur coute pas grand chose.

Les %xx sont à éviter à tout prix. Ça ne marche pas avec tous les clients emails et surtout ça empêche les copier/coller de l'email (et ça c'est pas mal embêtant).

  • 2 semaines plus tard...
Posté

j'ai 2 trace dans mes logs qui me semble suspect :

Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; FREE; MSIECrawler)

l'IP proviens bien d'un client de proxad... il n'y as pas de referant (donc proviens pas d'un visiteur classique qui a cliqué sur ma page d'accueil) mais c'est quoi "MSIECrawler"? un petit plaisantin qui s'amuse avec des logiciels 'aspirateurs' ? Je penche pour cela parce qu'en plus il est pas vraiment futé le gars, il m'envoi des mails de test :wacko:

ensuite j'ai ceci :

???????????

donc pas de user-agent ... l'IP donne rien ... encore récupéré un testeur fou :1eye:

le referant est la page elle meme.

Posté

Si je ne me trompe pas les MSIECrawler c'est quand quelqu'un fait un "rendre disponnible hors connexion" et que le navigateur fait un peu comme un aspirateur.

Posté

voila une autre trace suspecte qui a visité 2 pages :

j'ai une IP provenant du domaine d'aol.com et qui n'a pas d'user agent, ni de referant.

ce nest pas un navigateur AOL parce que j'ai deja vu passé des navigateur AOL 7.0 etc... et la je n'ai pas la meme chose.

24h apres avec la commande 'tracert', l'IP et le chemin est toujours le meme, je ne penche pas pour une IP dynamque alloué a un abonné.

Qui a une idée sur la question?

Par contre aujourd'hui je suis en premiere position sur google avec 'encodage php' ...

cela m'etonne toujours parce que mes pages sont vraiment vide ... comme quoi a balise title a une forte prépondérance sur le contenu de la page.

Aucun spam recu a ce jour ...

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...