Aller au contenu

Sujets conseillés

Posté (modifié)

Voici une étude publié par AOL, sur le comportement des internautes face au moteur de recherche.

http://www.ir.iit.edu/~abdur/publications/pos-infoscale.pdf

Les diagrammes 2.x ( page 2 ) décrivent la compléxité de "l'espace de recherche" des internautes.

Le diagramme 2.9 montre la répartition du nombre de mots clés / requêtes ( 3.5 mot en moyenne).

Vu la répartition, les requêtes de 3-4 mots sont majoritaires

- 45 % des requêtes se font sur 3 ou 4 mots

- 20 % sur 2 mots

Les diagrammes 3.x ( page 3 ) décrivent le processus de reformulation d'une recherche lors d'une session utilisateur

Les diagrammes 4.x ( page 4 ) décrivent les comportements des internautes.

Ils distinguent trois types d'internautes :

- heavy ( le petit pourcentage des internautes qui effectuent le plus de requêtes, le sacro-saint 20/80 )

- medium

- light

Ces internautes se distinguent par la quantité des recherches effectuées, mais aussi par la qualité.

Les trois catégories d'utilisateurs interagissent différement avec différentes régions d'une page de résultat.

J'avoue avoir un peu de mal à interpréter la signification des diagrammes : 4.3, 4.4, 4.5

Dans ce paragraphe, les auteurs s'interrogent sur la difference ( discontinuity ) entre la perception des utilisateurs et les mesures traditionnelles de pertinences.

Et je me suis arrêté là....

Un des objectifs des auteurs est d'utiliser les données utilisateurs pour améliorer la pertinence des résultats dans les moteurs de recherche.

Modifié par Spidetra
Posté
Y a t il une relation avec la bourde d'AOL et les 20 millions de requêtes mises à disposition par le FAI ?

Tout le monde crie à la bourde... mais il faut quand même relativiser.

Ces données ont éte mises à disposition de labo de recherche, c'est écrit dans le readme qui accompagne les données.

Ces données ont été générées pour analyser les comportements utilisateurs.

Ensuite, vrai bourde ou fuite intelligement organisée, la barrière est fine :lol:

Le jeu de données est certainement le même.

D'ailleurs la

500k User Session Collection

----------------------------------------------

This collection is distributed for NON-COMMERCIAL RESEARCH USE ONLY.

Any application of this collection for commercial purposes is STRICTLY PROHIBITED.

Brief description:

This collection consists of ~20M web queries collected from ~650k users over three months.

The data is sorted by anonymous user ID and sequentially arranged.

The goal of this collection is to provide real query log data that is based on real users. It could be used for personalization, query reformulation or other types of search research.

........

Please reference the following publication when using this collection:

G. Pass, A. Chowdhury, C. Torgeson, "A Picture of Search" The First

International Conference on Scalable Information Systems, Hong Kong, June,

2006.

Copyright (2006) AOL

J'ai pas suivi tout le buzz sur le web, donc bourde ou pas, aucune idée.

Aucune, il s'agit d'un papier de recherche scientifique comme en publient tous les chercheurs. D'autres publications de l'auteur ici : http://ir.iit.edu/~abdur/pub.html

Il y a une relation quand même. C'est la publi de référence dans le readme du jeu de données AOL qui a été rendu public.

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...