Aller au contenu

Article sur la technologie CIRCA


Sujets conseillés

Posté

Je viens de mettre en ligne la première partie d'un article sur la technologie CIRCA utilisée dans le programme Adsense (et peut-être dans le moteur aussi si l'on en croit certains...)

Je commence par un long historique d'Applied Semantics, la société à l'origine de cette technologie. Un historique nécessaire pour rappeler que l'idée d'utiliser la sémantique pour catégoriser des pages web est plus ancienne que Google (et oui...), que le programme Adsense est né pratiquement en même temps que Google (et oui...) et que l'on a déjà réalisé des moteurs s'appuyant sur une technologie sémantique.

Dans la deuxième partie, nous nous attacherons à étudier les principes de CIRCA, longuement décrit dans un document jadis présent sur le site d'Applied Semantics et disparu depuis le rachat de la société par Google...

Enfin, dans la troisième partie, nous décrirons comment Adsense fonctionne et comment il "sert" des liens sponsorisés ou des pubs adaptées au contenu de vos pages...

http://www.webmaster-hub.com/publication/article101.html

Posté

Merci pour ces infos Cariboo.

Il y a un gros manque d'info à ce niveau et également un manque de transparence de la part de Google sur l'utilisation réelle de ces technos dans leur système. Je cours de ce pas lire l'article !

Posté

Je viens de mettre en ligne la seconde partie de l'article...

"Principes de la technologie CIRCA"

Je suis assez conscient du caractère parfois indigeste de cette prose... Désolé, j'ai essayé de faire simple, mais je crois que cela reste quand même pas très passionnant pour le newbie et le webmaster qui ne s'intéresse pas aux outils linguistiques, ce qui doit bien représenter 95% de nos membres...

On va essayer de se rattraper sur la troisième partie, dans laquelle on répondra aux trois questions suivantes :

- comment fonctionne Adsense ?

- pourquoi Adsense peut avoir du mal à "catégoriser" une page

- et y'a-t'il moyen d'optimiser ses pages pour adsense ?

Posté

Indigeste ? Je ne sais pas... Pour l'instant, je digère doucement mais sûrement les deux premiers articles.

Complexe, inhabituel pour le webmestre et donc déroutant ? oui sûrement.

Mais surtout passionnant et instructif !

Je sens que j'ai de quoi de prendre la tête utilement pendant mes longues soirées d'hiver rural, ce qui est toujours une bonne nouvelle.

Surtout, ne t'arrête pas ;)

Posté

Je trouve cela au contraire trés captivant et surtout approprié dans le sens ou les moteurs de recherche de demain fonctionneront sous ces types de principes et seront capables de comprendre le sens d'une phrase ou d'un mot remis dans son contexte.

Les applications découlant de ce type de techno sont complètement déroutantes, c'est la porte ouverte à de nombreux nouveaux services que ce soit sur le Web ou IRL, et j'avoue avoir du mal à comprendre pourquoi aujourd'hui ces technos ne sont pas encore plus developpézs que ca.

Il y a peut être une réelle difficulté technologique à bosser dans ce domaine, mais je penche plutôt pour une pénurie de linguistes et de statisticiens destinés à élaborer ce type de techno.

A propos, je ne vois pas mention dans cet article de notions statistiques ?

J'avais rencontré il y a quelques mois déjà un chercheur du CNRS avec qui nous avions discuté de sémantique et de statistiques appliqués au web. A l'époque, il m'avait présenté un module de recherche capable de comprendre le sens des mots et de trier des résultats en fonction de leur environnement sémantique. L'application était trés impressionnante.

Quid pour Circa ?

N'utilise t-il pas d'énormes bases linguistiques pour appliquer des statistiques par rapport à une langue donnée, la proéminence d'un mot dans une langue, sa fréquence d'utilisation dans tel type de contexte, ses sens communs, etc ??

Les onze type de relations différentes ne sont elle pas basés sur des thésaurus, des stats ou autre types d'index ?

Encore merci pour cet article Cariboo !

Posté

CIRCA, c'est une ontologie + des stats de fréquence + des probabilités de co-occurence.

Donc il y'a beaucoup de stats dans l'appli.

N'utilise t-il pas d'énormes bases linguistiques pour appliquer des statistiques par rapport à une langue donnée, la proéminence d'un mot dans une langue, sa fréquence d'utilisation dans tel type de contexte, ses sens communs

Les stats "linguistiques" contribuent à la catégorisation syntaxique dans CIRCA, mais faiblement à la désambiguation sémantique.

Pour la désambiguation sémantique, les probabilités de co-occurence et la mesure de la connectivité sont beaucoup plus utiles. Je pense rédiger un article sur le sujet, car il a des applications directes nombreuses en matière de référencement et en technique de recherche d'informations...

Les onze type de relations différentes ne sont elle pas basés sur des thésaurus, des stats ou autre types d'index ?

Non, pas du tout. Ce sont des relations sémantiques, ce n'est pas de la linguistique.

Pour info, la recherche française dans ce domaine est très, très pointue... Ce qui pèche, comme d'habitude, c'est la recherche appliquée.

Posté

C'est cela que j'ai encore du mal à saisir, comment peut on faire de la sémantique sans apprendre à l'application (type Circa) un minimum de linguistique ?

Dans ce que tu m'expliques et ce que je comprends, cela voudrait dire que la sémantique appliquée dans Circa n'a pas réellement besoin de comprendre, seul le contexte et les connectivités entre expressions et mots suffisent pour établir un sens. Ce sens sera alors utilisé pour afficher ou être liés à d'autres notions du même sens.

Mais cela au final, sans réelle compréhension de la 'signification' du sens et donc sans linguistique, l'outil ne comprend pas, il ne peut que que trier les sens et à nous de les comprendre lorsqu'il nous les propose.

C'est pas simple à expliquer, j'espère que tu m'auras compris :P

Posté

Oui, Pierre en fait tu as parfaitement compris...

Les outils statistiques linguistiques dont tu parles ne sont que des suites de chiffres alignés derrières des lemmes, des lexèmes , ou des flexions... La linguistique n'étudie en aucun cas par contre le "sens", c'est l'objet de la sémantique. La linguistique n'étudie que la langue (sa grammaire, sa syntaxe, ses mots), pas à quoi sert la langue.

La sémantique est d'ailleurs une science bizarre, car étudier le "sens" crée vite des effets d'abyme, isoler le sens des signes qui le représentent quand on utilise les mêmes signes pour parler d'isoler le sens des signes qui le représentent, c'est un joli casse tête d'épistémologiste :lol:

Les outils sémantiques utilisés dans CIRCA ne font que mesurer la probabilité pour que des mots aient tel sens ou tel autre, ou la similarité avec des concepts stockés dans l'ontologie sous forme de triplets (mots, sens, syntagmes).

Bref, tous ces outils sont complètement idiots. Il faut un travail de fourmi de linguistes pour réaliser une ontologie solide dans un premier temps, ensuite le système "apprend tout seul". Chez Applied Semantics, ils appellent cela "l'extension mécanique de l'ontologie".

CIRCA est un système capable de déterminer le sujet abordé dans un texte. Il le "détermine", il ne le "comprend" pas. En fait, il le détermine le plus souvent, pas toujours, car il ne sait pas résoudre tous les cas ambigus... Pour cela, il faudrait un corpus de taille infinie (et encore, l'infini de aleph1 probablement, un infini indénombrable), et des machines capables de calculer sur des corpus infinis.

Par contre, les humains "comprennent" le thème abordé, même s'il est ambigu.

Mais le problème n'est pas de "comprendre" le contenu, mais de le "catégoriser". Dans ce domaine, les expériences menées ont démontré que la machine est (contrairement à ce que l'on pourrait penser) beaucoup plus efficace qu'un opérateur humain...

Et je suis d'accord avec toi, Pierre, pour m'étonner que ces techniques ne soient pas plus utilisées... Je pense qu'il ne faut pas trop chercher l'explication : c'est une technologie qui arrive lentement à maturité. On la verra exploser dans quelque temps, et tout le monde mettra les espaces vectoriels de Salton à toutes les sauces...

Posté

Ce qui pourrait être l'aboutissement d'un technologie n'est que le prémice d'une autre.

Pour tout ce qui est 'moteur de recherche', FAQ, etc, le fait de 'comprendre' un texte parait être l'aboutissement de recherches poussées sur la compréhension des pages crawlées, voire la compréhension des requètes des internautes.

Mais ces recherches vont beaucoup plus loin, puisqu'elles pietinent également sur un autre domaine, beaucoup plus prometteur que les moteurs de recherche. C'est l'intelligence artificielle. En effet, lorsque l'on parle d'une machine, lorsque l'on parle d'intelligence artificielle, on aborde automatiquement la notion de 'comprehension du langage'. "Est ce qu'il nous comprend ?". Dans tous les autres domaines, la machine est meilleure que l'homme. Il lui manque la parole, ou plus exactement, comprendre une discussion, tenir une conversation. Sachant que ce que l'on dit est conditionné par notre vécu, il reste le 'comprendre une discussion', ou plus exactement : Communiquer. La machine serait capable de communiquer ? Alors tout lui serait accessible...

Ah, j'oubliais : Encore un excellent article.

Posté

J'ai mis en ligne la suite et la fin de ce long article sur CIRCA et Adsense (je vais enfin pouvoir passer à autre chose :) ).

Adsense en action

Dans cet article, je fais quelques expériences pour montrer les limites du système Adsense, et pour mieux comprendre pourquoi la pertinence des annonces est un problème plus compliqué qu'il n'y parait.

Au passage, on apprend que Google semble avoir "thématisé" de très nombreux sites... et pas seulement ceux qui adhèrent au programme.

Posté

Le final est excellent encore une fois Cariboo.

Vraiment bravo pour ces 3 articles qui sont qu'une qualité rarement vue ..

Tu as en plus démontré également les failles du système, ce qui reste trés intéressant pour imaginer ou anticiper ce que pourront donner les outils de demain qui essaieront d'améliorer le système originel.

Concernant les catégories Google, il existe en effet des thématiques en interne chez eux qui leur permet par exemple de trier plus facilement leurs résultats organiques de recherche.

Ainsi sur des requêtes commerciales ou ambigues, le classement se fait d'abord par le biais de ces thématiques en décidant d'afficher sur le mot clé 'Jaguar' (pour reprendre ton exemple ;)) d'abord des informations sur le véhicule (catégorie Automobile) avant de commencer à voir des résultats mixés, puis finalement sur l'animal (catégorie Animaux).

Ils peuvent de ce fait décider de privilegier tel type de résultats selon les requêtes (exemple , sites institutionnels, sites commerciaux puis sites persos)

On voit clairement que dans les résultats Google, les sites commerciaux priment sur les autres domaines notamment sur toutes les requêtes générant beaucoup de trafic. Seul les 'petits' mot clés sont encore affranchies de ce type de catégorisation et il est possible de retrouver la pertinence et qualité des résultats d'antan sur certaines requêtes ;)

D'ou l'importance pour le référencement comme pour Google d'un outil comme Dmoz ..

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...