Spidetra Posté 11 Août 2006 Posté 11 Août 2006 (modifié) Voici une étude publié par AOL, sur le comportement des internautes face au moteur de recherche. http://www.ir.iit.edu/~abdur/publications/pos-infoscale.pdf Les diagrammes 2.x ( page 2 ) décrivent la compléxité de "l'espace de recherche" des internautes. Le diagramme 2.9 montre la répartition du nombre de mots clés / requêtes ( 3.5 mot en moyenne). Vu la répartition, les requêtes de 3-4 mots sont majoritaires - 45 % des requêtes se font sur 3 ou 4 mots - 20 % sur 2 mots Les diagrammes 3.x ( page 3 ) décrivent le processus de reformulation d'une recherche lors d'une session utilisateur Les diagrammes 4.x ( page 4 ) décrivent les comportements des internautes. Ils distinguent trois types d'internautes : - heavy ( le petit pourcentage des internautes qui effectuent le plus de requêtes, le sacro-saint 20/80 ) - medium - light Ces internautes se distinguent par la quantité des recherches effectuées, mais aussi par la qualité. Les trois catégories d'utilisateurs interagissent différement avec différentes régions d'une page de résultat. J'avoue avoir un peu de mal à interpréter la signification des diagrammes : 4.3, 4.4, 4.5 Dans ce paragraphe, les auteurs s'interrogent sur la difference ( discontinuity ) entre la perception des utilisateurs et les mesures traditionnelles de pertinences. Et je me suis arrêté là.... Un des objectifs des auteurs est d'utiliser les données utilisateurs pour améliorer la pertinence des résultats dans les moteurs de recherche. Modifié 11 Août 2006 par Spidetra
Sebastien Posté 11 Août 2006 Posté 11 Août 2006 Merci Spidetra ! En effet plein d'infos interessantes...
beal2912 Posté 11 Août 2006 Posté 11 Août 2006 Y a t il une relation avec la bourde d'AOL et les 20 millions de requêtes mises à disposition par le FAI ?
Sebastien Posté 11 Août 2006 Posté 11 Août 2006 Aucune, il s'agit d'un papier de recherche scientifique comme en publient tous les chercheurs. D'autres publications de l'auteur ici : http://ir.iit.edu/~abdur/pub.html
Spidetra Posté 11 Août 2006 Auteur Posté 11 Août 2006 Y a t il une relation avec la bourde d'AOL et les 20 millions de requêtes mises à disposition par le FAI ? Tout le monde crie à la bourde... mais il faut quand même relativiser. Ces données ont éte mises à disposition de labo de recherche, c'est écrit dans le readme qui accompagne les données. Ces données ont été générées pour analyser les comportements utilisateurs. Ensuite, vrai bourde ou fuite intelligement organisée, la barrière est fine Le jeu de données est certainement le même. D'ailleurs la 500k User Session Collection---------------------------------------------- This collection is distributed for NON-COMMERCIAL RESEARCH USE ONLY. Any application of this collection for commercial purposes is STRICTLY PROHIBITED. Brief description: This collection consists of ~20M web queries collected from ~650k users over three months. The data is sorted by anonymous user ID and sequentially arranged. The goal of this collection is to provide real query log data that is based on real users. It could be used for personalization, query reformulation or other types of search research. ........ Please reference the following publication when using this collection: G. Pass, A. Chowdhury, C. Torgeson, "A Picture of Search" The First International Conference on Scalable Information Systems, Hong Kong, June, 2006. Copyright (2006) AOL J'ai pas suivi tout le buzz sur le web, donc bourde ou pas, aucune idée. Aucune, il s'agit d'un papier de recherche scientifique comme en publient tous les chercheurs. D'autres publications de l'auteur ici : http://ir.iit.edu/~abdur/pub.html Il y a une relation quand même. C'est la publi de référence dans le readme du jeu de données AOL qui a été rendu public.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant