Aller au contenu

Sujets conseillés

Posté

J'ai publié un article en trois parties dans la zone publication :

Vers un moteur de recherche sensible au contexte ...

Je fais le point dans cet article sur l'état de l'art en matière de pagerank personnalisé et ses applications à des moteurs de recherche thématiques au sein de l'université de Stanford, qui, chacun le sait, entretient des relations privilégiées avec Google.

Ces recherches préfigurent peut-être des évolutions à venir de Google, ce qui leur confère un intérêt tout particulier.

Mais d'autres approches existent, et il existe d'autres travaux intéressants, notamment publiés par des chercheurs de UCLA, et des labos de Xerox...

Par ailleurs, une autre piste de travail a été travaillée par le centre de recherches Almaden d'IBM, qui a abouti à la technologie Webfountain. Mais ce sera probablement l'objet de mon prochain article.

  • 2 years later...
Posté

Salut Philippe,

Je suis arrivé sur ton article en faisant une recherche sur les OR thématiques. Je vois que le papier remonte à 2003, mais quel est l'état de l'art aujourd'hui. La technique est-elle au point pour un moteur thématique, et est-ce que ça demanderait des ressources importantes, financières, techniques, etc.

Par ailleurs, si on veut faire un annuaire sur un thème, est-ce que ça servirait à quelque chose d'ajouter un tag à chaque ressource, un peu comme on le fait avec les billets sur les blogs ?

Merci d'avance,

Posté

Cette technique est au point, elle est utilisée par Google dans son système de "Personalized Search", qui est sortie de la version bêta depuis un certain temps maintenant.

Ceci dit, cela ne fait pas de Google un moteur "thématique"...

Ce que fait seekport est plus proche probablement de ce que tu cherches ... Cela fonctionne à l'aide d'un algorithme de clustering et d'un corpus d'entrainement.

Par ailleurs, si on veut faire un annuaire sur un thème, est-ce que ça servirait à quelque chose d'ajouter un tag à chaque ressource, un peu comme on le fait avec les billets sur les blogs ?

Genre folksonomie ?

C'est une possibilité, mais la classification directe est souvent suffisante. Le "tag" n'est intéressant que s'il est placé par les sites eux mêmes, et là, entre ceux qui s'en fichent et ceux qui mettent n'importe quoi dans les balises ...

Posté

Merci Philippe.

Encore une fois tu nous régale en rendant (presque) simple le complexe.

As-t-on des nouvelles des projets d'IBM pour Webfountain ?

Posté

Quelques unes, mais pour résumer, disons que ce produit n'est pas une grande réussite commerciale, et le projet a connu une certaine réduction de voilure. :(

Mais Big Blue peut se le permettre.

On risque de le voir réapparaître sous une autre forme dans quelques mois. Pour l'instant il sert d'outil de data mining pour quelques multinationales qui veulent faire de l'intelligence économique.

  • 2 months later...
Posté

Bonjour à tous,

Ces sujets sont très intéressants mais relativement éloignés (hélas ?) de la recherche de l'internaute.

En effet, le pagerank calcule une popularité d'un document au regard des autres documents en fonction du mot clef tapé par l'internaute. Nous sommes alors d'accord pour dire que Google "se sert" de liens inter-documentaires pour ordonner la pertinence. De là a dire que ce calcul s'effectue sur chaque mot-clef....

La limite saute aux yeux : Si mon site (qui traite de choucroute) à un lien vers w3c...la pertinence de w3c sur "choucroute" est plus que discutable...Pour autant, c'est bien lui qui récupere le backlink ! Il n'y a pas (ou plus?) de contextualisation grâce aux PR et aux backlinks .

Et du point de vue de l'internaute :

Google ne comprend toujours pas la subtilité d'une recherche : exemple ci-dessous (testé le 13 avril sur .fr )

- "offre d'emploi" => 43 000 000 resultats

- "offre emploi" => 41 100 000 resultats

- "offre d emploi" => 79 900 000 resultats

Pour nous humains, est-ce la même chose ? OUI !

Cela fait la part belle aux référenceurs et webmestres...mais cela changera forcement très bientot.

Et du point de vue d'un moteur : (voir à gauche ;) )

L'approche par concept est [en l'etat des connaissances] la seule viable pour orienter et guider l'internaute à exprimer sa demande afin de limiter l'ambiguïté linguistique :

BARRAGE peut signer plusieurs concepts...

Barrage routier

Barrage éléctrique

match de Barrage.

Nous sommes d'accord : ces 3 concepts ont tout et rien à voir entre eux...mais Google ne vous informe par qu'ils existent !

Retour d'expérience :

Pour FraGGo.com (moteur de recherche transport) nous indexons environ 1.500.000 de docs (pdf compris)...la volumétrie des liens inter-documents est d'environs 4.000.000. mais la réalité et plus proche de 1 docs=30 liens externes.

Google et le comportementale internaute :

Faites le test suivant :

1) Contactez un ami (par téléphone) et demandez lui de taper la même requete que vous sur Google.fr (respectez casse, accents et pluriels):

=>Observez le volume de document et l'ordre des résultats de la page 1...

2) Faites en même temps une 2ème requête identique

=>Observez le volume de document et l'ordre des résultats de la page 1...

3) recommencez le test en changeant de navigateur web et d'ip si possible..

4) regardez dans vos cookies...

Bravo : vous venez de découvrir que Google commence le comportementale.

=>Notez sur webmaster-hub vos observations...

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...