duplicate content ?

Natou · 4 Mai 2006

A partir de quel critère on se retrouve face à un duplicate content ?

J'ai trouvé un site qui à 3 nom de domaine diffèrents et pour chacun un habillage diffèrent.

Mais en y regardant de plus pres on s'aperçoit que le contenu est parfaitement identique (sauf dans la disposition, enfin disont que tout le contenu provient de la même database).

Bref ça ne saute pas aux yeux et pourtant...

S'agit-il dans ce cas d'un duplicate content?

Puisque google lui aussi vera le site comme différent puisque le code est agencé autrement?

Modifié 4 Mai 2006 par natou.

appollo · 4 Mai 2006

La seul chose que je peut te dire c est que jusqu'a présent google a du mal a détécter un site avec le meme contenu si ces mots sont mélangé d'ailleurs de nombreuse page sat présente sur le net sont fait a partir d'un mélange de phrase d'un meme texte.

Cependant google est de plus en plus malin et detecte de mieux en mieux les contenu similaire surtout depuis les dernières mise a jour faite ces derniers temps.

Jeff · 4 Mai 2006

A partir de quel critère on se retrouve face à un duplicate content ?

A mon sens :

Il y a duplicate lorsque Google trouve deux pages strictement identiques ; 100% du code.

J'ai trouvé un site qui à 3 nom de domaine diffèrents et pour chacun un habillage diffèrent.
Mais en y regardant de plus pres on s'aperçoit que le contenu est parfaitement identique (sauf dans la disposition, enfin disont que tout le contenu provient de la même database).

Bref ça ne saute pas aux yeux et pourtant...

S'agit-il dans ce cas d'un duplicate content?

Puisque google lui aussi vera le site comme différent puisque le code est agencé autrement?

Dans ce cas il s'agirait plutôt de similarité.

GG pénaliserait des pages trop similaires, mais il est assez difficile de connaître les critères exacts pris en compte par Google afin de déterminer deux pages trop similaires.

Balises; Code; Contenu; Balises + contenu; Balises + code + contenu.

Jeff,

zapman · 5 Mai 2006

J'ai fait une page résumant tout ce que j'ai pu trouver sur le Duplicate Content.

D'autre part, j'ai créé une série de 14 pages destinées à expérimenter ce phénomène et à vérifier ou infirmer les rumeurs qui courrent à son sujet.

Tout ça est encore très récent et je n'ai pas encore effectué une analyse fine des résultats (dont certains semblent difficiles à interpréter).

Pour le moment, je peux au moins affirmer que :

- le pourcentage de 70% de ressemblance, souvent cité comme "limite" pour déclencher le Duplicate Content ne repose sur aucun fondement est n'est absolument pas vérifié par l'expérimentation

- l'individualisation des balises <TITLE> et <DESCRIPTION> est absolument capitale pour éviter le duplicate content.

- en cas de duplicate content, les pages ayant le plus de backlinks sont celles qui sont finalement retenues par Google et MSN.

>>> Page d'expérimentation du Duplicate Content <<<

Williams · 5 Mai 2006

A partir de quel critère on se retrouve face à un duplicate content ?
J'ai trouvé un site qui à 3 nom de domaine diffèrents et pour chacun un habillage diffèrent.

.....tout le contenu provient de la même database.

<{POST_SNAPBACK}>

1 site = 1 ndd

3 ndd = 3 sites non ?

une meme data base pour les trois sites : et alors ?

et les sites de marque blanche c'est quoi ?

meme contenu , nom de domaine ou sous domaine different donc titre meta etc differents mais contenu identique....

Mon avis c'est qu'il y a deux visions des choses

celles des moteurs de recherche et la c'est le jeux du plus rusé.

celles des internautes : sont ils trompés ?

williams

yep · 5 Mai 2006

J'ai fait une page résumant tout ce que j'ai pu trouver sur le Duplicate Content.

Tu commences ton article par

Il est essentiel de comprendre que le "Duplicate Content" est un filtre appliqué sur les résultats

Je ne suis pas sur que c'est un filtre mais plutôt le fait que les pages proposent du contenu similaire.

Puis :

La "sandbox" (parfois appelée "blacklistage")

Ah bon ?

Cependant le reste de l'article est interessant

except (point précédemment abordé) : "Lorsqu'il détecte deux pages identiques à travers le Web, Google pénalise l'un des deux sites concernés."

La duplication de contenu est le fait de proposer un contenu similaire accessible via différentes ressources et non un filtre appliqué par Google.

Modifié 5 Mai 2006 par yep

**Régis** · 5 Mai 2006

J'ai fait une page résumant tout ce que j'ai pu trouver sur le Duplicate Content.

Hello Zapman,

Si j'ai bien compris, il s'agit de la suite de ce post : Les redirections, Un point sur les techniques où je te demandais :

Au sujet du Duplicate Content, tu donnes un taux de concordance de 70% qui semble communément admis (moi-même, c'est celui que je donne) => connais-tu une etude à ce sujet ?

Allez Hop, je vais lire ton étude...

Merci

zapman · 8 Mai 2006

Si j'ai bien compris, il s'agit de la suite de ce post : Les redirections, Un point sur les techniques où je te demandais : "Au sujet du Duplicate Content, tu donnes un taux de concordance de 70% qui semble communément admis (moi-même, c'est celui que je donne) => connais-tu une etude à ce sujet ?"

<{POST_SNAPBACK}>

Absolument ! Et la réponse est on ne peut plus claire : certaines pages qui ne présentent qu'une concordance de 40% à 50% avec la page d'origine semblent tomber dans le filtre alors que d'autres qui ont une concordance de 80% à 90% y échappent.

Accessoirement, cette expérimentation semble également répondre à une question de Modibo sur L'ordre de suivi des liens, je m'explique :

- toutes les pages dupliquées se pointent les une les autres à l'aide d'une liste de liens, identique sur toutes les pages

- l'ordre des liens figurant dans cette liste est le suivant : de la page 90% à la page 40%

- dans les résultats, les pages 90% et 80% semblent échapper au filtre, alors que toutes autres tombent dedans (on s'attendrais plutôt à ce que ce soient les pages 40%, 50% et 60% qui s'en sortent !)

- j'en déduis (peut-être à tort ?) que les premiers liens de cette liste ont plus de poids que les derniers, ce qui fait que les pages 90% et 80% récupèrent un PageRank (ou quelque chose d'approchant) plus fort que les suivantes, ce qui fait que ces pages sont celles que Google et MSN retiennent.

Merci, Yep, pour tes remarques qui m'ont permis d'améliorer la clarté de mon article. Rien ne vaut un oeil extérieur pour détecter les imprécisions.

Modifié 8 Mai 2006 par zapman

Connexion

duplicate content ?

Sujets conseillés

Natou

appollo

Jeff

zapman

Williams

yep

Régis

zapman

Veuillez vous connecter pour commenter

Parcourir

Activité