Statistiques moteur de recherches

Spidetra · 11 Août 2006

Voici une étude publié par AOL, sur le comportement des internautes face au moteur de recherche.

http://www.ir.iit.edu/~abdur/publications/pos-infoscale.pdf

Les diagrammes 2.x ( page 2 ) décrivent la compléxité de "l'espace de recherche" des internautes.

Le diagramme 2.9 montre la répartition du nombre de mots clés / requêtes ( 3.5 mot en moyenne).

Vu la répartition, les requêtes de 3-4 mots sont majoritaires

- 45 % des requêtes se font sur 3 ou 4 mots

- 20 % sur 2 mots

Les diagrammes 3.x ( page 3 ) décrivent le processus de reformulation d'une recherche lors d'une session utilisateur

Les diagrammes 4.x ( page 4 ) décrivent les comportements des internautes.

Ils distinguent trois types d'internautes :

- heavy ( le petit pourcentage des internautes qui effectuent le plus de requêtes, le sacro-saint 20/80 )

- medium

- light

Ces internautes se distinguent par la quantité des recherches effectuées, mais aussi par la qualité.

Les trois catégories d'utilisateurs interagissent différement avec différentes régions d'une page de résultat.

J'avoue avoir un peu de mal à interpréter la signification des diagrammes : 4.3, 4.4, 4.5

Dans ce paragraphe, les auteurs s'interrogent sur la difference ( discontinuity ) entre la perception des utilisateurs et les mesures traditionnelles de pertinences.

Et je me suis arrêté là....

Un des objectifs des auteurs est d'utiliser les données utilisateurs pour améliorer la pertinence des résultats dans les moteurs de recherche.

Modifié 11 Août 2006 par Spidetra

Sebastien · 11 Août 2006

Merci Spidetra ! En effet plein d'infos interessantes...

beal2912 · 11 Août 2006

Y a t il une relation avec la bourde d'AOL et les 20 millions de requêtes mises à disposition par le FAI ?

Sebastien · 11 Août 2006

Aucune, il s'agit d'un papier de recherche scientifique comme en publient tous les chercheurs. D'autres publications de l'auteur ici : http://ir.iit.edu/~abdur/pub.html

Spidetra · 11 Août 2006

beal2912 a dit :
Y a t il une relation avec la bourde d'AOL et les 20 millions de requêtes mises à disposition par le FAI ?

Tout le monde crie à la bourde... mais il faut quand même relativiser.

Ces données ont éte mises à disposition de labo de recherche, c'est écrit dans le readme qui accompagne les données.

Ces données ont été générées pour analyser les comportements utilisateurs.

Ensuite, vrai bourde ou fuite intelligement organisée, la barrière est fine

Le jeu de données est certainement le même.

D'ailleurs la

Citation
500k User Session Collection
----------------------------------------------

This collection is distributed for NON-COMMERCIAL RESEARCH USE ONLY.

Any application of this collection for commercial purposes is STRICTLY PROHIBITED.

Brief description:

This collection consists of ~20M web queries collected from ~650k users over three months.

The data is sorted by anonymous user ID and sequentially arranged.

The goal of this collection is to provide real query log data that is based on real users. It could be used for personalization, query reformulation or other types of search research.

........

Please reference the following publication when using this collection:

G. Pass, A. Chowdhury, C. Torgeson, "A Picture of Search" The First

International Conference on Scalable Information Systems, Hong Kong, June,

2006.

Copyright (2006) AOL

J'ai pas suivi tout le buzz sur le web, donc bourde ou pas, aucune idée.

Sebastien a dit :
Aucune, il s'agit d'un papier de recherche scientifique comme en publient tous les chercheurs. D'autres publications de l'auteur ici : http://ir.iit.edu/~abdur/pub.html

Il y a une relation quand même. C'est la publi de référence dans le readme du jeu de données AOL qui a été rendu public.

Connexion

Statistiques moteur de recherches

Sujets conseillés

Spidetra

Sebastien

beal2912

Sebastien

Spidetra

Veuillez vous connecter pour commenter

Parcourir

Activité