Idée de business: APIs Web, Screen Scraping et web sémantique

vincedo · 10 Janvier 2008

Bonjour,

* On trouve énormément d'informations sur le web, mais elles sont polluées (spam), de mauvaise qualité (incomplètes, périmées, fausses...), ou éclatées sur une myriade de sites différents.

* Grâce aux API Web, aux flux RSS et au screen scraping, il est possible de récupérer ces informations et de les combiner pour leur donner un sens (web sémantique).

* Ces informations acquièrent alors une valeur qui peut être exploitée de plusieurs façons : publication du contenu et monétisation grâce à la pub (AdSense), création d'une communauté autour du contenu, service de veille techno...

Quelques exemples d'applications :

* Vous êtes fan de Céline Dion ? (ça arrive...) Une page simple vous présente une minibio, quelques photos, les dates de ses prochains passages TV/radio en France, la parodie de Florence Foresti (vidéo YouTube)... Vous pouvez mettre en place une alerte pour être averti par e-mail de tout nouvel événement la concernant (par ex : une séance de dédicaces dans la FNAC la plus proche de chez vous).

* Vous ne savez pas quoi regarder à la TV ce soir ? Une page simple vous présente l'ensemble des émissions du soir avec les notes attribuées par chaque magazine TV. Pour les films, une note moyenne est calculée à partir des évaluations des principaux sites de ciné (Allocine, Imdb...).

* Vous aimeriez vous faire une sortie ce week-end ? Une page simple vous présente les événements culturels qui ont lieu à moins de 5 km de chez vous, classés par popularité.

Les idées ne manquent pas.

J'aimerais en discuter avec des personnes intéressées.

Vincent

destroyedlolo · 10 Janvier 2008

L'idee est interessante mais ca pose au moins 2 problemes :

1/ comment le systeme va choisir la source des ses informations ? Si c'est un moteur qui scanne le web, ca va etre super difficile de classifier la pertinance des differents sites. En plus les sites sur les memes sujets ne contiennent pas forcement le meme genre d'information et certains sont massivement dynamiques avec donc des infos qui apparaissent et disparaissent rapidement ... alors comment les extraires ?

2/ je doute que les sites sources soient super content qu'on leur pique leurs informations pour les inclure dans d'autres pages.

Donc va falloir etablir des relations commerciale avec chacun d'eux et sa risque de couter bonbon.

Lolo

MagNet · 10 Janvier 2008

Sans oublier le risque de redondance de l'information dans les divers flux entrant.

Automatiser le tout peux être réellement intéressant... encore faut-il trouve l'algo (Et la, c'est pas rien !).

vincedo · 10 Janvier 2008

L'objectif n'est pas non plus de devenir Google à la place de Google. :-)

Je voyais plutôt l'organisation suivante :

* Définir des sources de référence pour chaque grande thématique (par ex, Allociné = Cinéma).

* Faire un mapping entre les pages web de ces sources et une base de données sémantique (http://www.dapper.net/).

* Réorganiser l'info à partir de requêtes sur la base sémantique.

Je ne veux pas minimiser la complexité, mais l'idée n'est pas de crawler le web dans son intégralité ni d'utiliser de l'intelligence artificielle pour comprendre le contenu des pages.

Un très bon exemple d'implémentation de cette idée appliquée au eCommerce :

http://www.wikio.fr/produit/hp-3995.html

(une page simple qui synthétise tous les tests, avis, news, vidéos sur un produit)

**captain_torche** · 11 Janvier 2008

Attention, à moins d'avoir un flux XML qu'ils autorisent à reproduire sur d'autres sites, le scraping d'un site n'est pas légal. Je prends l'exemple d'allociné, qui, faute d'un accord financier, risque de mal prendre le fait que quelqu'un reprenne ses infos.

vincedo · 11 Janvier 2008

Hm, tu as probablement raison...

Mais est-ce que ça ne dépend pas de la quantité d'infos que tu reprends ? Si la quantité est peu importante et que tu fais un lien vers la source, ça tombe dans la catégorie du "Fair Use", non ?

Par exemple, je doute que http://www.wikio.fr/ ait systématiquement passé des accords avec tous les sites qu'il cite.

Modifié 11 Janvier 2008 par vincedo

**captain_torche** · 11 Janvier 2008

Je doute que tu puisses te défendre avec le fair use, ou l'exception de citation, face à allociné : pour que ta base soit pertinente, tu dois en isoler les éléments principaux, et on sort dans ce cas allègrement du cadre de la citation.

Si je ne m'abuse, wikio ne reprend que les titre des articles (diffusés via des flux RSS), et les liens s'ouvrent vers la publication originale. Il n'est pas fait de scrapping dans ce cas.

**Clair de Lune** · 11 Janvier 2008

Je prends l'exemple d'allociné, qui, faute d'un accord financier, risque de mal prendre le fait que quelqu'un reprenne ses infos.

C'est un détail, mais allociné propose un flux rss pour chaque salle, je m'en sers pour afficher sur mon site les programmes du cinéma près de chez moi.

Je ne fais que supposer que ce n'est pas interdit

vincedo · 11 Janvier 2008

Je doute que tu puisses te défendre avec le fair use, ou l'exception de citation, face à allociné : pour que ta base soit pertinente, tu dois en isoler les éléments principaux, et on sort dans ce cas allègrement du cadre de la citation.

Si je ne m'abuse, wikio ne reprend que les titre des articles (diffusés via des flux RSS), et les liens s'ouvrent vers la publication originale. Il n'est pas fait de scrapping dans ce cas.

OK. Allociné était juste un exemple, mais je vois ce que tu veux dire.

Cela dit, j'espère toujours discuter des possibilités que les mashups ouvrent (et pas seulement des aspects légaux) avec les éventuels intéressés.

Modifié 12 Janvier 2008 par vincedo

Connexion

Idée de business: APIs Web, Screen Scraping et web sémantique

Sujets conseillés

vincedo

destroyedlolo

MagNet

vincedo

captain_torche

vincedo

captain_torche

Clair de Lune

vincedo

Veuillez vous connecter pour commenter

Parcourir

Activité