Taux de similarité entre 2 pages

**Régis** · 20 Janvier 2005

Bonjour,

Je viens de découvrir "Similar Page checker" : http://www.webconfs.com/similar-page-checker.php qui permet de tester la similarité entre 2 pages.

J'ai testé et oups 2 de mes pages sont similaires à 92%.

Selon vous, à partir de quel taux de similarité Google considère-t-il 2 pages comme identique ? 70%, 80 %, 90% ou 100 % ?

Et quels en sont les risques ? blaklistage ?

PS : connaissez-vous d'autre URL permettant ce type de test ?

Merci

**Cariboo** · 20 Janvier 2005

Pour Google, la vérité c'est que personne ne sait vraiment.

Je trouve que ce genre d'outils fait perdre du temps plutôt qu'autre chose. Celui que tu cites n'explique pas en plus ce qu'il prend en compte dans son calcul de similarité (texte seul, code HTML, balises alt, ???)

Le seul vrai risque est la disparition d'une page de l'index en raison de la détection de "duplicate content"... Mais il reste l'autre page...

**Régis** · 20 Janvier 2005

Merci Cariboo, je suis OK sur le fait que cela peut faire perdre du temps... mais le sujet a exité ma curiosité.

Je me doute que personne ne connaît la vérité sur l'algorithme de Google et donc, je ne m'attendais pas à un chiffre précis mais plutôt une fourchette.

C'est vrai que cette URL n'indique pas les paramètres pris en compte pour le calcul de similarité et je me posais la même question... c'est pourquoi, j'ai demandé s'il existe d'autres URL de ce type pour comparer.

Du coup, je me pose une autre question : combien faut-il au minimum de mots différents dans une page ?

Modifié 20 Janvier 2005 par gatcweb

Stephane · 20 Janvier 2005

Du coup, je me pose une autre question : combien faut-il au minimum de mots différents dans une page ?

Dans le cas de Google, un seul mot peut suffire (mais tout dépend où il est placé)

C'est le résultat d'un petit test que j'avais fait durant le concours Seraphim Proudleduck.

L'un des concurrents avait essayé de faire pénaliser ma page de participation en faisant un lien vers celle-ci, avec un paramètre supplémentaire dans l'url.

Résultat, duplicate content puisque Google se retrouvait avec une page strictement identique sous deux urls différentes.

Ce à quoi j'ai simplement riposté en ajoutant un seul mot dans la page appelée par la 2ème url. Le mot était placé à la fois en fin de balise Title, et tout en haut du code source juste après le Body.

Apparemment cela suffit pour passer le filtre de dédoublonnage sur Google.

Donc, je pense qu'il ne faut pas raisonner forcément en termes de pourcentage de similarité et que Google attache plus d'importance aux différences de contenu entre certains éléments du code source (balise Title, 1er paragraphe de texte...)

Connexion

Taux de similarité entre 2 pages

Sujets conseillés

Régis

Cariboo

Régis

Stephane

Veuillez vous connecter pour commenter

Parcourir

Activité