Générateur automatique de contenu, pour webmaster.

gastonB · 6 Juin 2008

Salut tout le monde,

Je viens de finir de développer un script PHP, pour générer du contenu à volonté sur la bases de multiples flux RSS que lon choisi.

Je suis plutôt content de moi et je me demande même si je ne viens pas de créer un truc qui va foutre la m... chez les référenceurs...

Bref, jai mis tout ça en GPL et votre avis est grandement bienvenu.

En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

Jaurai voulu savoir si le contenu des flux affiché sur ma page pourrait mamener des pénalités ?

Jespère que jai réussi à mexprimer correctement.

Merci

P.S : Le script est sur le site de mon profil.

**captain_torche** · 6 Juin 2008

Je ne pense pas que tu puisses "foutre la m..." où que ce soit avec un script comme ça

Cependant, il existe de nombreux soucis à l'aggrégation de RSS, techniques et juridiques :

- Comme il s'agit de flux RSS ouverts, nombre de sites possèdent les mêmes textes. Pour remonter dans les moteurs, on a déjà vu mieux (Le risque de duplicate content est énorme).

- Comme l'a récemment démontré la justice française, le fait de choisir un flux RSS pour l'afficher sur ton site, est un choix éditorial. Si un des messages porte préjudice à quelqu'un (fréquemment dans les flux people), tu est considéré comme responsable, et tu es donc attaquable.

- Pour finir, un site composé uniquement d'agrégats de flux RSS, n'apporte en général strictement rien à l'internaute, il y a fort peu de chances de recevoir du backlink.

En conclusion, tu ne risques pas de remonter très haut dans les moteurs, malheureusement. Pour l'instant, rien n'a remplacé le contenu unique pour booster un site

Occi · 6 Juin 2008

+1

Plusieurs centaines de sites font déjà cela et Google et les autres semblent détecter (heureusement) les Flux RSS (même si stocké en BDD). Heureusement que les moteurs ne se laissent pas gruger sinon ça serait la fin des résultats pertinent dans les SERP, rien que du contenu identique.

Le truc est de savoir si les moteurs de recherche considèrent ceci comme du "duplicate content" donc pénalité sur le référencement ou si ils détectent que c'est du contenu en provenance d'un Flux RSS donc ignore tout simplement.

J'obte dans un premier temps pour la réponse "duplicate content" car il n y a aucun moyen de reconnaître un contenu dupliqué d'un contenu par Flux RSS, au final ça revient au même puisque le contenu est dupliqué et n'a que très peu d'intérêt pour l'Internaute. Après "peut être" qu'à force d'indéxer le même contenu pris sur plusieurs sites, les moteurs considèrent ceci comme un Flux... Impossible à savoir.

Citation
Je suis plutôt content de moi et je me demande même si je ne viens pas de créer un truc qui va foutre la m... chez les référenceurs...

Une mauvaise gestion du contenu syndiqué et c'est dans ta vie juridique que ça va "foutre la m..." pas chez les référenceurs

Les procès contre du contenu syndiqué c'est à la mode en ce moment et plusieurs se sont ramassés (abusivement je trouve, certains procès n'étaient pas justifiés).

Des gros et des petits ont subis des conséquences lourdes dont en quelques mois Wikio, Fuzz, pressecitron, ...

Modifié 6 Juin 2008 par Occi

**KaRaK** · 6 Juin 2008

Hello,

Je ne suis pas tout à fait d'accord avec mes collègues

Google a un vrai problème avec la duplication de contenu et a vraiment du mal à faire la distinction entre la source et la copie.

Je peux te donner par MP le nom d'un service de ce type qui se positionne fréquemment devant les sources.

Bref, je considère dans la plupart des cas, ce type de service comme une vraie plaie tant que google ne sera pas mieux armé...

**captain_torche** · 6 Juin 2008

Je pense savoir de quel site tu parles

Mais on parle là d'un site en particulier (une véritable plaie, soit dit en passant).

Mais pour tous les flux qui ressortent sur ce site, combien d'autres sites avec le même contenu se retrouvent en duplicate ?

Occi · 6 Juin 2008

Je crois savoir aussi de quel site il parle

Si c'est le même site faut savoir qu'avant de faire de l'agrégation de masse, ce site était très bien positionné et d'ailleurs il a plusieurs milliers de backlinks donc forcément ça aide.

Edit : quel boulet j'ai marqué de l'agression au lieu de l'agrégation, c'est corrigé.

Modifié 8 Juin 2008 par Occi

karnabal · 6 Juin 2008

Citation
Google a un vrai problème avec la duplication de contenu et a vraiment du mal à faire la distinction entre la source et la copie.

Oui, et il n'est toutefois pas dit qu'il cherche à établir une distinction entre source et copie. Il se contente de privilégier le contenu qui se trouve sur la page la plus optimisée pour la requête.

El-Cherubin · 7 Juin 2008

c'est quoi le site en question qui passe devant les sites au contenu original....?

Modifié 7 Juin 2008 par El-Cherubin

**Arlette** · 7 Juin 2008

El-Cherubin a dit :
c'est quoi le site en question qui passe devant les sites au contenu original....?

Si personne ne le dit c'est que :

- Ici on ne montre pas du doigt

- Que cela n'a aucun intérêt pour la conversation

**thick** · 7 Juin 2008

Je ne suis pas du tout d'accord avec les accusations concernant le "site en question".

La vaste majorité des bloggueurs n'ont absolument aucune idée des tenants et aboutissements du référencement. D'ailleurs, ils s'en fichent complètement et ils ont bien raison. Que veut un bloggueur auteur d'un "blog en question" ? Etre lu ! Peu importe si ça passe par un "site en question" qui a la possibilité de se positionner bien mieux que le pauvre "blog en question" auquel je donne 0% chance de visibilité.

Le "site en question" est tout à fait réactif pour sortir de sa base ceux qui ne souhaitent pas y figurer. Je ne vois pas du tout où est le problème. Ceux qui ne veulent pas ou ne savent pas comment populariser leur blog disposent d'un espace de visibilité indéniable et puissant. Tout le monde ne cherche pas à faire du trafic pour convertir en clics Adsense. Certaines personnes veulent simplement être lues et pour cela le "site en question" propose une alternative viable au référencement.

Ceux qui critiquent ce service sont majoritairement des webmasters jaloux de n'avoir pas entre les mains une telle machine de guerre. Sauf que je vois ce service d'une toute autre manière qu'un autre scraper plus ancien qui ne demande pas forcément l'avis des inscrits et procure 0 visibilité à ces derniers.

**Régis** · 7 Juin 2008

Effectivement le SEQ [comprendre Site En Question] est devenu très réactif, et N.XXX donne facilement des explications claires et rapides et semble sympathique...

Je suis OK que le SEQ est utile pour les bloggueurs qui se fichent du ref... et qu'il donne une visibilité que ces blogs ne pourraient pas avoir... par contre, je pense que ces bloggueurs souhaitent que leur blog soit connu et pas seulement que leur billet soit lu... Or, la plupart du temps, les billets du SEQ sont dans leur intégralité ne favorisant, probablement, pas ainsi la visite du blog éditeur (même s'il y a "voir l'article original").

Ceci dit, c'est une impression : je n'ai aucune idée du % de visite engendrée par le SEQ...

Perso, je me suis désabonné alors qu'il était encore en version béta ayant constaté aucun retour vers mon blog...

**thick** · 7 Juin 2008

C'est un faux problème puisque les bloggueurs qui souhaitent que leur blog soit connu ne doivent pas s'inscrire.

Puis faut pas pousser non plus, SEQ n'est pas indétrônable. Celui qui popularise suffisamment son blog doit lui passer devant. Il est tout à fait possible de profiter de la visibilité offerte par SEQ dans un premier temps, puis au fur et à mesure que le blog original prend une dimension plus populaire, il deviendra la référence.

De plus, si un blog tient tellement que ça à être reconnu, il faut qu'il mette en place une stratégie plus viable que racoler les visiteurs via les résultats de recherche. Etre reconnu implique que les visiteurs viennent directement, via des canaux externes aux moteurs. De ce fait, SEQ n'est pas du tout en concurrence avec un jeune blog inscrit qui souhaite devenir reconnu par la suite. Bien au contraire, il procure une visibilité impossible autrement et peut-être va t'il contribuer à permettre des bookmark, abonnements RSS et autres marques de reconnaissances.

Pour finir, je peux témoigner qu'un blog qui commence à être un peu reconnu se trouve très facilement. Tout simplement, les internautes tapent le NDD dans le champ de recherche Google. Ils ne vont pas rechercher les pages internes. De ce fait, SEQ ne gène en rien ce schéma.

**Régis** · 7 Juin 2008

thick a dit :
Tout simplement, les internautes tapent le NDD dans le champ de recherche Google.

D'où l'intérêt d'avoir un NDD facilement mémorisable... comme A-10-6

...

**Arlette** · 7 Juin 2008

Régis a dit :
Effectivement le SEQ [comprendre Site En Question]

Régis a dit :
D'où l'intérêt d'avoir un NDD facilement mémorisable... comme A-10-6 ...

En forme Régis ! Pour SEQ... tu aurais pu dire "Voldemor" (Celui dont on doit pas dire le nom) ... Mais Adicie ! Chapeau !

A croire que Thick me connait bien... Je fais partie de ceux qui tape le nom dans la case recherche de Google... Ca va plus vite que mettre l'URL... (Oui, je sais, j'ai l'option favori... Mais après ça fait trop d'image dans ma barre d'état )

El-Cherubin · 7 Juin 2008

Arlette a dit :
Si personne ne le dit c'est que :

- Ici on ne montre pas du doigt

- Que cela n'a aucun intérêt pour la conversation

Je ne demande pas a ce qu'on fasse un pilori, simplement un renseignement.

Et ca pouvait avoir de l'intérêt pour d'autres, comme moi, afin d'étudier le site en question et apprendre justement quelques trucs sur le référencement, s'il se positionne bien, c'est pas par l'opération du saint esprit, donc c'est utile d'analyser et comprendre ce site.

Mais je suppose que la curiosité des uns n'est pas celle des autres, donc on écrase et on zappe...

Bonne soirée

**KaRaK** · 7 Juin 2008

Hello,

Le débat à malheureusement dérivé sur le SEQ, je n'aurai pas du en parler

Les questionq étaient :

gastonB a dit :
En fait, je me demande si Google reconnaît le contenu des RSS et le référence ?

J’aurai voulu savoir si le contenu des flux affiché sur ma page pourrait m’amener des pénalités ?

Je n'avais pas répondu à la seconde. Il est apparu que Google pénalise des sites pour des extraits de Wikipédia repris sur leurs pages !

Amha un site qui n'est constitué que de 100% de contenu repris brut de forme , sans autre contenu et valeur ajoutée, court une risque à long terme. Bien entendu, en utilisant des flux de manière intelligente (seo parlant) et avec de la popularité, il est possible de faire pas mal de choses...

Pour en revenir au SEQ, je vous invite à lire attentivement les CGU.

Enfin, thick, en ce qui me concerne cela est tout sauf de la jalousie. J'ai toujours eu une réel admiration pour toutes les personnes mettant en place un projet et arrivant de surcroit à le monétiser... à partir du moment où ils se tiennent éloignés de mon contenu Mon intervention initiale n'était pas une critique mais avant tout une illustration de contenus non originaux positionnés devant la source.

D'ailleurs, je pense avoir un autre exemple, qui arrive même à se placer devant de vieux sites plutôt optimisés

Bref, espérons que google (ou un autre) change cela rapidement.

**Arlette** · 7 Juin 2008

El-Cherubin a dit :
Je ne demande pas a ce qu'on fasse un pilori, simplement un renseignement.
Et ca pouvait avoir de l'intérêt pour d'autres, comme moi, afin d'étudier le site en question et apprendre justement quelques trucs sur le référencement, s'il se positionne bien, c'est pas par l'opération du saint esprit, donc c'est utile d'analyser et comprendre ce site.

Mais je suppose que la curiosité des uns n'est pas celle des autres, donc on écrase et on zappe...

Bonne soirée

La dernière phrase est de trop ! Merci de respecter un peu plus ceux qui prennent de leur temps pour te répondre.

Le départ sur la conversation de "SEQ" (trop marrant l'expression de Régis, je m'en re-servirais) c'est pour montrer du doigt, histoire de dire : "Ou, le vilain ce qu'il fait"... Donc, non merci ! Si c'est pour partir en déballage public et que chacun y aille de son "montrage de doigt"... Pas ici.

Que cela ne te convienne pas, c'est un fait... Tu avais tout le loisir de contacter un membre par MP pour lui demander le nom du site, si tu souhaitais améliorer ton expertise en référencement !

**thick** · 7 Juin 2008

KaRaK a dit :
Enfin, thick, en ce qui me concerne cela est tout sauf de la jalousie.

Je ne pensais pas du tout à toi en disant cela, mais plutôt aux "petits" scrapers qui ont jadis critiqué d'autres scrapers plus gros qu'eux tout simplement parce qu'ils n'ont jamais réussi à en faire autant.

**Régis** · 8 Juin 2008

thick a dit :
(...) "petits" scrapers (...)

Pour info et pour les internautes ne connaissant pas le terme "scraper", en voici une définition en anglais (facilement compréhensible) : http://en.wikipedia.org/wiki/Scraper_site et une autre en français moins pertinente bien que... http://fr.wikipedia.org/wiki/D%C3%A9capeuse

BonBackLink · 8 Juin 2008

Je veux bien l'url du seq en message privé

merci.

El-Cherubin · 8 Juin 2008

Pourrais tu partager ton script, car je recherche un truc similaire a adapter pour un forum phpbb3, donc ca pourrait me faire une base.

Merci.

**Régis** · 9 Juin 2008

Bonjour El-Cherubin

El-Cherubin a dit :
(...) Pourrais tu partager ton script (...)

C'est précisément ce que propose clairement gastonB :

gastonB a dit :
(...) P.S : Le script est sur le site de mon profil. (...)

Il suffit donc simplement de cliquer sur son pseudo puis sur son profil puis sur son site...

Bigb06 · 9 Juin 2008

Perso j'ai fait des flux RSS personnalisés avec l'excellent Yahoo! Pipes et je dois dire que google apprécie ce petit plus pour deux raisons :

- Au lieu que la page soit assez statique, elle est quotidiennement mise à jour avec des nouvelles infos.

- Les actus et infos affichées sont TRES ciblées et correspondent exactement à ce que cherchent les visiteurs, ou ce qu'il serait susceptible de les interresser.

Par contre on est bien d'accord que ce n'est pas le contenu principal de la page, c'est un gros plus pour une page dont le contenu est assez statique.

alex blog · 9 Juin 2008

Sans dénoncer il y a de nombreux sites de flux qui se positionnent correctement sur de nombreux mots-clefs.

Il n'y a pas que SEQ/Voldemor dont je ne comprends pas pourquoi on le nomme d'ailleurs pas. Puisque ce qu'il fait n'est pas condamnable, c'est juste très énervant de le voir sans arrêt dans Google

Pour le script, je vais le tester, cela peut être sympa, même en utilisation personnelle.

**KaRaK** · 9 Juin 2008

Google vient (comme par hasard) de publier un billet qui parle des scrapers et de la duplication de contenu.

http://googlewebmastercentral.blogspot.com...o-scrapers.html

Connexion

Générateur automatique de contenu, pour webmaster.

Sujets conseillés

gastonB

captain_torche

Occi

KaRaK

captain_torche

Occi

karnabal

El-Cherubin

Arlette

thick

Régis

thick

Régis

Arlette

El-Cherubin

KaRaK

Arlette

thick

Régis

BonBackLink

El-Cherubin

Régis

Bigb06

alex blog

KaRaK

Veuillez vous connecter pour commenter

Parcourir

Activité