Cariboo Posté 2 Novembre 2003 Posté 2 Novembre 2003 J'ai publié un article en trois parties dans la zone publication : Vers un moteur de recherche sensible au contexte ... Je fais le point dans cet article sur l'état de l'art en matière de pagerank personnalisé et ses applications à des moteurs de recherche thématiques au sein de l'université de Stanford, qui, chacun le sait, entretient des relations privilégiées avec Google. Ces recherches préfigurent peut-être des évolutions à venir de Google, ce qui leur confère un intérêt tout particulier. Mais d'autres approches existent, et il existe d'autres travaux intéressants, notamment publiés par des chercheurs de UCLA, et des labos de Xerox... Par ailleurs, une autre piste de travail a été travaillée par le centre de recherches Almaden d'IBM, qui a abouti à la technologie Webfountain. Mais ce sera probablement l'objet de mon prochain article.
traducteur Posté 4 Février 2006 Posté 4 Février 2006 Salut Philippe, Je suis arrivé sur ton article en faisant une recherche sur les OR thématiques. Je vois que le papier remonte à 2003, mais quel est l'état de l'art aujourd'hui. La technique est-elle au point pour un moteur thématique, et est-ce que ça demanderait des ressources importantes, financières, techniques, etc. Par ailleurs, si on veut faire un annuaire sur un thème, est-ce que ça servirait à quelque chose d'ajouter un tag à chaque ressource, un peu comme on le fait avec les billets sur les blogs ? Merci d'avance,
Cariboo Posté 4 Février 2006 Auteur Posté 4 Février 2006 Cette technique est au point, elle est utilisée par Google dans son système de "Personalized Search", qui est sortie de la version bêta depuis un certain temps maintenant. Ceci dit, cela ne fait pas de Google un moteur "thématique"... Ce que fait seekport est plus proche probablement de ce que tu cherches ... Cela fonctionne à l'aide d'un algorithme de clustering et d'un corpus d'entrainement. Par ailleurs, si on veut faire un annuaire sur un thème, est-ce que ça servirait à quelque chose d'ajouter un tag à chaque ressource, un peu comme on le fait avec les billets sur les blogs ? Genre folksonomie ? C'est une possibilité, mais la classification directe est souvent suffisante. Le "tag" n'est intéressant que s'il est placé par les sites eux mêmes, et là, entre ceux qui s'en fichent et ceux qui mettent n'importe quoi dans les balises ...
Magicoyo Posté 6 Février 2006 Posté 6 Février 2006 Merci Philippe. Encore une fois tu nous régale en rendant (presque) simple le complexe. As-t-on des nouvelles des projets d'IBM pour Webfountain ?
Cariboo Posté 6 Février 2006 Auteur Posté 6 Février 2006 Quelques unes, mais pour résumer, disons que ce produit n'est pas une grande réussite commerciale, et le projet a connu une certaine réduction de voilure. Mais Big Blue peut se le permettre. On risque de le voir réapparaître sous une autre forme dans quelques mois. Pour l'instant il sert d'outil de data mining pour quelques multinationales qui veulent faire de l'intelligence économique.
Verticrawl Posté 13 Avril 2006 Posté 13 Avril 2006 Bonjour à tous, Ces sujets sont très intéressants mais relativement éloignés (hélas ?) de la recherche de l'internaute. En effet, le pagerank calcule une popularité d'un document au regard des autres documents en fonction du mot clef tapé par l'internaute. Nous sommes alors d'accord pour dire que Google "se sert" de liens inter-documentaires pour ordonner la pertinence. De là a dire que ce calcul s'effectue sur chaque mot-clef.... La limite saute aux yeux : Si mon site (qui traite de choucroute) à un lien vers w3c...la pertinence de w3c sur "choucroute" est plus que discutable...Pour autant, c'est bien lui qui récupere le backlink ! Il n'y a pas (ou plus?) de contextualisation grâce aux PR et aux backlinks . Et du point de vue de l'internaute : Google ne comprend toujours pas la subtilité d'une recherche : exemple ci-dessous (testé le 13 avril sur .fr ) - "offre d'emploi" => 43 000 000 resultats - "offre emploi" => 41 100 000 resultats - "offre d emploi" => 79 900 000 resultats Pour nous humains, est-ce la même chose ? OUI ! Cela fait la part belle aux référenceurs et webmestres...mais cela changera forcement très bientot. Et du point de vue d'un moteur : (voir à gauche ) L'approche par concept est [en l'etat des connaissances] la seule viable pour orienter et guider l'internaute à exprimer sa demande afin de limiter l'ambiguïté linguistique : BARRAGE peut signer plusieurs concepts... Barrage routier Barrage éléctrique match de Barrage. Nous sommes d'accord : ces 3 concepts ont tout et rien à voir entre eux...mais Google ne vous informe par qu'ils existent ! Retour d'expérience : Pour FraGGo.com (moteur de recherche transport) nous indexons environ 1.500.000 de docs (pdf compris)...la volumétrie des liens inter-documents est d'environs 4.000.000. mais la réalité et plus proche de 1 docs=30 liens externes. Google et le comportementale internaute : Faites le test suivant : 1) Contactez un ami (par téléphone) et demandez lui de taper la même requete que vous sur Google.fr (respectez casse, accents et pluriels): =>Observez le volume de document et l'ordre des résultats de la page 1... 2) Faites en même temps une 2ème requête identique =>Observez le volume de document et l'ordre des résultats de la page 1... 3) recommencez le test en changeant de navigateur web et d'ip si possible.. 4) regardez dans vos cookies... Bravo : vous venez de découvrir que Google commence le comportementale. =>Notez sur webmaster-hub vos observations...
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant