reverse engineering sur google

28 Avril 2006

Bonjour,

je vais démarrer une petite étude de reverse engineering sur l'algoritme de google. Est ce qu'il y a des choses qui ont déjà été faites sur ce sujet telles que des études expérimentales?

**Cariboo** · 28 Avril 2006

En matière de reverse engineering, environ 8 ans de travail de plusieurs milliers de personnes...

Sur le plan expérimental : huit ans pour des millions de webmasters...

Mais pas grand chose de concret n'a été trouvé... Il faut dire que l'exercice (le reverse engineering) trouve rapidement ses limites dans le cas d'un moteur de recherche.

sébastien971 · 28 Avril 2006

je vais démarrer une petite étude de reverse engineering sur l'algoritme de google

Je suis impréssionné.....

28 Avril 2006

merci Cariboo,

je vais me mettre au travail en commencant par la recherche d'une bibliographie.

**Jeanluc** · 28 Avril 2006

Bonjour,

Tout dépend jusqu'où tu veux aller.

Le fondement de l'algorithme de Google est ce papier de Sergey Brin et Lawrence Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine.

Bon amusement.

Jean-Luc

28 Avril 2006

ola je ne veux pas aller si loin.

je n'ai pas encore trouvé sur le web et notamment dans les forums sur le référencement des résultats expérimentaux donnant des courbes qui peuvent nous orienter vers tels ou tels principes de base utilisés par l'algorithme.

**Jeanluc** · 28 Avril 2006

Si cela te paraît compliqué, je te conseille de commencer par ceci (en français) : L’algorithme du PageRank expliqué.

Le PageRank, c'est ce que tu pourrais appeller le principe de base de l'algorithme de Google.

Jean-Luc

**Cariboo** · 29 Avril 2006

L'approche statistique pour l'étude des moteurs de recherche a été testée par quelques référenceurs pro américains, et ... bernique, rien de tangible à l'arrivée.

Par contre, ces études ont le mérite de tordre le cou à des idées reçues... Comme l'influence du pagerank sur le classement.

Pourquoi l'approche statistique n'apporte que peu d'enseignements ? Il y'a trois raisons à cela, bien connue des chercheurs en IR :

- l'index de google n'est pas stable dans le temps : le temps de faire une étude, l'index a changé, et l'algorithme aussi. Si on détecte un changement dans les pages de résultat, il est difficile de savoir si c'est l'index qui a changé, ou l'algorithme, voire les deux. En plus, il y'a le jeu des multiples datacenters avec des index différents...

- l'algorithme de google n'existe pas... C'est un abus de langage. Il y'a bien un algorithme de calcul du pagerank, le reste n'est qu'une combinaison de critères de notation. On sait qu'il en existe plus d'une centaine. Faire du reverse engineering là dessus consiste donc à résoudre une équation à plus d'une centaine d'inconnues, sans connaître le degré de chaque monôme...

- le dernier point, totalement bloquant celui là, c'est que le critère le plus important est statistique... La plupart des moteurs utilisent la linguistique statistique (ou une alternative probabiliste) pour déterminer quelles pages sont pertinentes en réponse à une requête donnée. Pour en tirer des conclusions sur l'algorithme, il faut connaître le corpus de départ : le world wide web entier, dans la version indexée par Google (qui est différente du www réel). On peut avoir des résultats "approximés" à condition de disposer d'une très grosse partie de l'index global (chaque requête tapant sur une toute petite zone du web, dont les résultats statistiques peuvent être influencés parfois par un petit nombre de pages).

Bref, pour faire du reverse engineering efficace, il faut avoir l'index de Google sous la main pour faire des mesures précises. Ce que personne n'a, sauf Google, qui n'a pas besoin de reverse engineering.

sylvain · 29 Avril 2006

Je confirme ce que dit Philippe (yep je sais ça n'apporte pas beaucoup d'infos).

Pour avoir fait des essais d'analyse statistique, je peux dire que :

1. lorsqu'on transpose des résultats obtenus sur des exemples artificiels (graphe du web artificiel generé aléatoirement, contenu écrit automatiquement suivant des grammaires particulières etc.) sur le vrai web, on obtient absolument pas ce que l'on avait prévu.

2. Ce qui est vrai sur un index de quelques (environ 100) millions de pages ne semblent pas etre vrai sur un index "a la google".

30 Avril 2006

merci à tous pour vos réponses,

néanmoins je vais démarrer une étude statistique dans le secteur qui est devenu très concurrentielle du dépannage, maintenance, formation informatique. Je vais me restreindre au top 30 avec les paramètres tels que : ancienneté, nb de pages indéxées ..... Celà me permettra d'avoir au moins une vision à l'instant t de la chose.

**KaRaK** · 1 Mai 2006

J'avais trouvé plusieurs études américains qui analysaient les résultats Google. Je pense qu'elles pourraient t'aider ou t'inspirer.

Je n'arrive plus à les retrouver... Si tu tombes dessus, (ou si quelqu'un du Hub à quelques liens), n'hésite pas à poster les liens ici

Galeenet · 1 Mai 2006

J'avais essayé de faire des corrélations nombre de BL selon leur PR par rapport au PR du site... résultats à la hache, rien de tangible.

Tu devrais aller lire Jean Veronis, c'est peut être le francais qui a le plus creusé sur les bizarreries de Google.

Connexion

reverse engineering sur google

Sujets conseillés

Guest mahi

Cariboo

sébastien971

Guest mahi

Jeanluc

Guest mahi

Jeanluc

Cariboo

sylvain

Guest mahi

KaRaK

Galeenet

Veuillez vous connecter pour commenter

Parcourir

Activité