Jan Posté 26 Octobre 2005 Posté 26 Octobre 2005 J'étais pourtant sûr d'avoir développé cette solution ; tu dois avoir raison j'ai dû rêver. <{POST_SNAPBACK}> Je ne dis pas que tu n'as pas développé ton outil bien sûr, je dis juste que google s'était déjà doté de moyens de détecter les redirections java script: If you're seeing a directory from your site go away, the only new factor I'd check for is doorway pages with javascript redirects. google has been getting better at detecting that lately. We're catching spam on freehosts better/faster, but if you're on the blackhat end of the spectrum, you've probably already noticed that. http://www.webmasterworld.com/forum30/31072-7-30.htm Je suis d'accord avec toi sur le fait que le ménage qu'a fait google est encore très partiel, mais on ne peut pas en même temps se plaindre que leurs résultats sont spamés, et critiquer quand ils font un pas pour les améliorer. Bien sûr tout ceci n'enlève rien à la qualité de ton travail
Cendrillon Posté 26 Octobre 2005 Posté 26 Octobre 2005 c'est vrai que ce serait vraiment bien de disposer d'un tel outil ... mais le problème avec ce type d'outil, ce n'est souvent pas de détecter la fraude mais d'éviter les effets collatéraux (sinon cela ferait bien longtemps que les astuces bidon, genre div cachés et compagnie auraient déjà disparus) ... je ne pense pas que le vrai problème pour les moteurs soit de détecter les fraudes, mais déviter de "condamner" un site innocent ... ce qui est quand même la moindre des choses ...
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 (modifié) OK mea culpa mes excuses à tous. J'ai tellement l'habitude de réactions négatives devant l'innovation que j'ai un peu () tendance à surréagir. Je me réjouis que mes sur-réactions aient conduit à un échange nourri qui, de plus, m'a permis de découvrir des formes de cloaking que, et je n'étais probablement pas le seul dans ce cas, j'ignorais jusqu'alors. NB : - Non je ne dis pas que je vais les employer - AMHA Le politiquement et webiquement correct est parfois (souvent) stérile J'en profite pour saluer le haute qualité de ce forum que je fréquente depuis peu mais toujours avec grand intérêt. Merci de m'y accueillir avec mon fichu caractère. Modifié 26 Octobre 2005 par AbaqueInside
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 (modifié) mais le problème avec ce type d'outil, ce n'est souvent pas de détecter la fraude mais d'éviter les effets collatéraux (sinon cela ferait bien longtemps que les astuces bidon, genre div cachés et compagnie auraient déjà disparus) ... Franchement, quand on sait un peu programmer, détecter les textes cachés dans une page HTML est relativement facile, je dirais même très facile. Je me demande comment Google et autres peuvent encore buter là dessus. Détecter les redirections JS est un peu plus tordu car on peut utiliser une cascade de fonctions et d'instructions. Par exemple (je vais essayer d'écrire simple pour que ceux qui connaissent mal JS et DOM puissent comprendre ; que les puristes veuillent bien me pardonner les fautes de syntaxe éventuelles, je m'en excuse par avance, non pas sur la tête ça fait mal ) morceau1 = "window."; morceau2 = "location"; morceau3 = "="; morceau4 = "maPageCible.htm"; commande = morceau1 + morceau2 + morceau3 + morceau4; eval(commande); // exécute la commande fabriquée ci-dessus On peut broder à l'infini sur le même thème ... je ne pense pas que le vrai problème pour les moteurs soit de détecter les fraudes, mais déviter de "condamner" un site innocent ... ce qui est quand même la moindre des choses ... C'est bien pour cela qu'à notre avis il doit voir les seules pages présentées à l'internaute, telle que les verra l'internaute. Modifié 26 Octobre 2005 par AbaqueInside
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 the only new factor I'd check for is doorway pages with javascript redirects. google has been getting better at detecting that lately. We're catching spam on freehosts better/faster, but if you're on the blackhat end of the spectrum, you've probably already noticed that. AMHA, si je peux me permettre, les précautions oratoires indiquent clairement qu'ils ne savent pas faire de manière fiable.
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 Bon une petite dernière, désolé d'insister. En effet, notre solution ne peut rien contre le cloaking sur IP / User Agent En fait si, notre outil pourrait aussi servir contre cette forme de cloaking : Comme pour Lance Armstrong récemment, faire un contrôle anti-dopage a posteriori (j'aime bien l'expression contrôle anti-dopage lue récemment dans ces colonnes) : Sur un échantillon de mots clé, On prend les 10 pages les mieux placées On vérifie si ce sont des pages satellites (on peut envoyer un USER AGENT anonyme et changer d'IP à chaque vague de contrôle)
Cendrillon Posté 26 Octobre 2005 Posté 26 Octobre 2005 (modifié) Franchement, quand on sait un peu programmer, détecter les textes cachés dans une page HTML est relativement facile, je dirais même très facile.Je me demande comment Google et autres peuvent encore buter là dessus. <{POST_SNAPBACK}> parce qu'à mon avis le problème n'est pas technique ... détecter des textes "cachés" et des redirections (même tordues) n'est pas pas un problème ... le vrai problème est plutôt de savoir discriminer (avec un taux d'erreur acceptable) si c'est une technique utilisée à des fin de spam ou non ... par exemple : la plupart des forum font du cloaking sur les moteurs, faut il pour autant virer tous ces forum de l'index de Google ? beaucoup de sites utilisent des calques cachés pour leurs menus, faut il tous les virer de l'index ? Modifié 26 Octobre 2005 par cendrillon
AvenueDuWeb Posté 26 Octobre 2005 Posté 26 Octobre 2005 Franchement, quand on sait un peu programmer, détecter les textes cachés dans une page HTML est relativement facile, je dirais même très facile.Je me demande comment Google et autres peuvent encore buter là dessus. Détecter sur une page c'est une chose, détecter sur 10 milliards de pages ça en est une autre. C'est là le problème des moteurs de recherche à mon avis, avoir un algo performant en terme de résultat mais également en terme de vitesse d'exécution. C'est pourquoi à mon avis, un truc qui parrait simple à faire n'est pas fait par Google ou autre, et je ne pense pas que le problème vienne des compétences des ingénieurs de chez Google... @+
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 le vrai problème est plutôt de savoir discriminer (avec un taux d'erreur acceptable) si c'est une technique utilisée à des fin de spam ou non Franchement je ne te comprends pas. Si j'étais un moteur de recherche, devant une page, je me demanderais 'Quel texte voit vraiment l'internaute moyen ?' - style="visibility:hidden;" : je zappe - <noscript> : je pondère par le nombre d'internautes qui n'utilisent pas les scripts - <img alt="toto" : si je peux trouver l'image je zappe - <noframe> : je zappe parce que 99,999% des navigateurs courants acceptent les frames - etc. Je me foutrais pas mal des intentions de l'auteur du site, je me contenterais d'apprécier ce que l'internaute voit effectivement. C'est d'ailleurs ce que font les araignées en donnant plus de poids au texte situé en tête de page par qu'à celui situé en bas de page (avec les limites inhérentes à CSS2 with positionning).
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 avoir un algo performant en terme de résultat mais également en terme de vitesse d'exécution Désolé de te contredire mais tabuler les balises d'une page même lourde et analyser leur contenu se chiffre en millisecondes. Avec plus de 80.000 machines tournant 24 heures sur 24, Google a encore de la marge.
Sebastien Posté 26 Octobre 2005 Posté 26 Octobre 2005 style="visibility:hidden;" : je zappe Tu zappe alors nombre de sites clean qui utilisent juste des menus ou elements dynamiques utilisant javascript et css <noscript> Si la balise est souvent utilisée pour le référencement, son usage premier est de fournir un contenu alternatif au script. Elle sert donc l'accessibilité des sites. <img alt="toto" : si je peux trouver l'image je zappe Je ne vois pas en quoi la presence ou non de l'image est pertinente quand au spam <noframe> : je zappe parce que 99,999% des navigateurs courants acceptent les frames idem que pour noscript. Tu vois c'est pas si simple
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 Tu vois c'est pas si simple Ben si ou alors je dois prendre un aspegic au plus vite Pourquoi indexer des textes que ne verra pas l'internaute ? Bon d'accord pour le "alt" car il décrit le contenu d'une information graphique inaccessible à l'araignée (bien qu'il existe, paraît-il des logiciels capables de reconnaître des formes d' image, par exemple certaines parties du corps humain ) Mais pour le reste ? 90 % des internautes acceptant les Scripts, seuls 10 % d'entre eux verront le texte dans <noscript>. Sachant que lorsqu'il reçoit une demande de recherche, Google ou autre ne sait pas si l'émetteur accepte les scripts ou non, le texte <noscript> devrait, AMHA, être pondéré pour tenir compte de la moindre audience. etc. Bon, c'est peut-être une controverse philosophico-sémantique et là je dois avouer que, en tant que technicien de base, je ne tiens pas la route.
Dan Posté 26 Octobre 2005 Posté 26 Octobre 2005 On vérifie si ce sont des pages satellites(on peut envoyer un USER AGENT anonyme et changer d'IP à chaque vague de contrôle) C'est bien là le problème ! Tu ne peux pas faire d'IP spoofing donc tu ne pourras pas prendre une des IP de Google. Donc tu ne verras que les pages prévues pour le public, pas celles prévues pour les moteurs. Et quand bien même tu arriverais à émettre un paquet avec une de ces IPs, la réponse du serveur serait envoyée à Google, pas à toi. Donc si les pages sont prévues pour s'afficher juste pour ces IPs tu ne pourras pas les voir. Et je pense qu'avec les interlocuteurs que tu trouveras sur le Hub, tu auras nombre de participants aux concours de positionnement, qui savent pratiquement tous faire du cloaking sur IP ... Et là ton outil ne pourra rien détecter.
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 Mon cher Dan, Tout d'abord je te renouvelle perso. mes félicitations pour le Hub dont, je crois, tu es l'auteur. Tu ne peux pas faire d'IP spoofing Ma dernière proposition n'allais pas dans ce sens où j'ai bien compris que ne peux rien faire. Je ne suis plus dans l'optique "Araignée" mais plutôt "Client Mystère" Je vais tâcher d'être clair J'ai un serveur indépendant de Google et consorts Je dresse une liste de mot(s) clé(s) à surveiller Pour chaque mot(s) clé(s) surveillé(s) : - Je requête à Google sur ces mots clés - Je vérifie en douce les 10 premières adresses de page. Pour cela j'envoie des requêtes à partir de mon serveur, avec un USER AGENT et une IP complètement indépendante de Google et consorts, a priori indétectable sauf Gross Sapotache oder Espionnache . Je remonte les pages satellites à qui de droit.
Dan Posté 26 Octobre 2005 Posté 26 Octobre 2005 Je remonte les pages satellites à qui de droit. Cela suppose que tu aies un contact privilégié avec "qui de droit". Mais là encore, si les pages ne sont pas en cache moteur, tu ne pourras pas détecter le cloaking s'il est bien fait, vu que tu n'auras pas la possibilité de comparer ces pages vues avec une IP de Google par rapport à ces pages vues avec une IP différente (ou avec 10 000 IPs différentes, ça ne change rien). Si je fais une page "juste pour GoogleBot" en me basant sur son IP ... comment arriveras-tu à la voir ? Je veux bien prendre le pari avec toi, quel que soit l'enjeu ... Je te suggère de faire le test que Jan avait publié sur son site concernant le cloaking, tu réaliseras que ce n'est pas trivial du tout. Il te donnera très certainement l'URL du test. Dan PS: merci pour tes félicitations, elles reviennent à l'ensemble de la communauté.
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 Je veux bien prendre le pari avec toi, quel que soit l'enjeu ... Enfin ça devient sportif et fair play, j'aime ça ... Disons une bouteille de champagne ça va ? Si je fais une page "juste pour GoogleBot" en me basant sur son IP ... comment arriveras-tu à la voir ? Justement je ne la verrai surtout pas, je verrai la page comme l'internaute. Par exemple J'interroge Google sur 'webmaster' Il me retourne une page avec des hyperliens, où le Hub en bonne place Je vérifie chaque adresse comme si je l'avais copié - collé dans ma page de test, comme n'importe quel internaute standard. J'ignore ce que Google a en cache ou autre, je regarde la page comme un internaute. Est-ce plus clair ? (cross finger)
tom_sawyer Posté 26 Octobre 2005 Posté 26 Octobre 2005 style="visibility:hidden;" : je zappe Le problème c'est le statut peut changer pour le cas de menus déroulant (comme l'a évoqué Sébastien) par exemple, ou de textes affichés au survol d'un élément. L'internaute sur une action précise va bien voir ces éléments affichés à l'écran. C'est donc plus difficile de faire la part des choses à mon sens.
Dan Posté 26 Octobre 2005 Posté 26 Octobre 2005 J'ignore ce que Google a en cache ou autre, je regarde la page comme un internaute. C'est justement là que le bât blesse, car si la page est cloakée pour les robots ce n'est pas celle là que tu verras, mais celle à l'usage de l'internaute. DOnc rien ne te permettra de détecter le cloaking. C'est ce que j'essaie de te faire comprendre: tu ne pourras jamais voir les pages faites à l'usage de Googlebot si elles ne sont pas dans le cache Google et que ce cloaking est fait sur base de l'IP. Ce sont celles-là qui représentent le danger, pas celles destinées aux utilisateurs lambda.
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 L'internaute sur une action précise va bien voir ces éléments affichés à l'écran Parfaitement d'accord avec cet exemple. Le Web dynamique complique l'analyse. Néanmoins je reste convaincu de la validité du principe : analyser la page telle l'internaute la verra. Les textes apparaissant de ci de là devraient avoir moins de poids que ce qui est directement visible. Sinon, j'aurais peut-être une solution ... mais pas sous le coude là tout de suite.
Tizel Posté 26 Octobre 2005 Posté 26 Octobre 2005 Néanmoins je reste convaincu de la validité du principe : analyser la page telle l'internaute la verra. C'est ce que n'importe quel moteur de recherche digne de ce nom cherche à faire. Le problème, c'est qu'aucune entreprise au monde ne peux se permettre de changer d'adresse IP chaque fois qu'elle indexe une page... Elle peut le faire ponctuellement (rien ne dit d'ailleur que Google ne le fait pas de temps en temps) mais pas tout le temps. Tizel
Dan Posté 26 Octobre 2005 Posté 26 Octobre 2005 J'ai déjà eu l'occasion de voir sur le Hub un visiteur en provenance d'un FAI standard américain, avec comme référant une page de Google.com dont l'accès est protégé par autentification http. C'est donc bien quelqu'un qui a suivi un lien au départ d'un site privé à Google, avec une IP "standard". Le post qu'ils étaient venus voir traitait d'une suppression de compte Adsense.
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 (modifié) DOnc rien ne te permettra de détecter le cloaking En effet, et je ne vois pas l'intérêt de le détecter, seul le résultat compte, non ? Voyons les choses autrement. Le cloaking sur IP/USER AGENT consiste pour le serveur à envoyer, pour une même adresse de page, un contenu différent à l'araignée du moteur de recherche et à l'internaute. Si cette différence de contenu est une redirection masquée au MR, mon outil la voit (normalement), c'est d'ailleurs son seul but. Si c'est tout le contenu de la page qui est trafiqué, c'est un autre problème que mon outil n'a nullement l'ambition d'adresser. La seule solution envisageable serait de passer après le robot comme internaute lambda, lire la page et l'envoyer au MR pour comparaison avec le cache. Et c'est une toute autre histoire... A nouveau, je pense que ce genre d'approche "internaute mystère" serait très intéressante. Il ne s'agit pas de vérifier toutes les pages mais, disons, les dix premières sur les 20 % de mots clés représentant 80 % des recherches, et ce de façon aléatoire. Contrôle anti-dopage est probablement la meilleure analogie. Et je verrais très bien une communauté comme le Hub jouer les contrôleurs. Modifié 26 Octobre 2005 par AbaqueInside
c.klouchi Posté 26 Octobre 2005 Posté 26 Octobre 2005 Petit test avec un dossier contenant 15 pages sat' http://www.google.fr/search?hl=fr&c2coff=1...echercher&meta= Et bien il me dit que je n'ai pas de page sat' FORMIDABLE
AbaqueInside Posté 26 Octobre 2005 Auteur Posté 26 Octobre 2005 Et bien il me dit que je n'ai pas de page sat' FORMIDABLE Ahum, tu n'as peut-être pas bien compris. Notre outil de détecte pas les pages référençant des pages satellites mais les pages satellites elle-mêmes, qui redirigent vers une autre
c.klouchi Posté 26 Octobre 2005 Posté 26 Octobre 2005 les pages référençant des pages satellites Qui référence quoi ? Je veux vous aider à debugguer votre outil en vous montrant un dossier qui va pas tarder à être GoogleSpamAlerter Et vous me parler de référencement de page sat', je suis un peu perdu .... Vous dites detecteur de page sat, j'en montre 15.000 à l'outil et il voit rien Heureusement Google n'est pas aussi naïf
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant