Article sur l'algorithme HITS

**Cariboo** · 10 Mars 2004

J'ai publié un nouvel article dans la partie publications.

Il s'agit de la première partie d'une présentation de l'algorithme HITS, utilisé (en tout cas ses dérivés) par Teoma, ou Webfountain par exemple...

http://www.webmaster-hub.com/publication/article61.html

Si vous avez des remarques ou des questions, n'hésitez pas...

Sebastien · 10 Mars 2004

Un site peut il être à la fois hub et authority? par exemple Yahoo présente ces 2 aspects : fréquemment cité (donc authority) mais pointant vers de nombreux sites (hub)

smile · 10 Mars 2004

:up:

J'attends la suite avec impatience

**Cariboo** · 10 Mars 2004

Un site peut il être à la fois hub et authority? par exemple Yahoo présente ces 2 aspects : fréquemment cité (donc authority) mais pointant vers de nombreux sites (hub)

Très bonne question ! Dans la plupart des cas, l'algorithme décide facilement si un site est un "hub" ou une "authority". Il classerait ainsi directement Yahoo en Hub (Yahoo est presque un "archétype" de Hub).

Mais en fait, l'algo note chaque page en fonction de ses performances de "Hub" et d'"Authority" (les deux).

Par construction de l'Algo, un bon Hub n'est pas une bonne Authority, et réciproquement. Par contre un "Hub" moyen peut aussi être une "Authority" moyenne. Tous les intermédiaires sont possibles.

Anonymus · 11 Mars 2004

Bonjour,

Excellent article

Pour ma part, je ne classerais pas du tout Yahoo dans Authority. En effet, hormis les différentes pages d'accueil, il y a très peu de liens vers les pages Yahoo. Le site Yahoo est un site très souvent pointé, mais il n'y a pas une page particulière, dans Yahoo, qui soit plus pointée que les autres, il n'y a pas une page qui soit pointée spécialement pour son contenu.

On trouve, dans le domaine de l'informatique, beaucoup de pages Authority. Si le site du w3c, avec sa page w3.org est beaucoup cité, les pages du site, par exemple le HTML validator est aussi vraiment souvent cité, sans que ne soit fait référence au w3c. Elle est donc citée pour son contenu, et non parce qu'elle a un lien avec la page d'accueil.

La page du validator est donc une page authority. (pour info, ces deux pages ont un PR10) Mais... pour en revenir à Yahoo, il n'y a pas une page spécialement citée pour son contenu.

Or c'est justement là que se situe la différence entre l'algorithme google et l'algorithme HITS. L'un considère qu'une page est intéressante parce que la page qui fait lien vers elle est intéressante. Pour HITS, une page est intéressante parce qu'elle est citée, c'est tout.

Voilà mon avis.

A+, Anonymus.

**Cariboo** · 11 Mars 2004

Or c'est justement là que se situe la différence entre l'algorithme google et l'algorithme HITS. L'un considère qu'une page est intéressante parce que la page qui fait lien vers elle est intéressante. Pour HITS, une page est intéressante parce qu'elle est citée, c'est tout.

Je complète ton observation Nico (j'avais fait exprès de ne pas rentrer dans des détails trop techniques dans l'article, en me disant que cela n'intéresserait personne, visiblement, si...) :

Il y'a deux différences fondamentales entre le PageRank et HITS.

Premièrement, la théorie mathématique sous jacente utilisée est différente (mais dans les deux cas, il s'agit de résultats de la théorie des graphes orientés).

Deuxièmement, c'est la manière de prendre en compte les liens qui est fondamentalement différente :

- dans le pagerank, une page est notée en fonction du "poids" de chaque lien entrant qui pointe vers cette page... Chaque lien est pris en compte individuellement, sans se soucier des autres liens. Et peu importe la page d'où viennent ces liens, seul le "poids" du lien est pris en compte...

- dans l'algorithme HITS, on ne s'intéresse pas uniquement aux liens entrants, mais aussi aux lien sortants... Ce qui permet de discerner des "structures" sur le net que le pagerank ne permet pas de voir. Et c'est la page d'où provient le lien ou vers lequel le lien pointe qui transmet son poids, pas le lien lui-même.

Anonymus · 11 Mars 2004

Lors de ton premier article sur le sujet, je t'avais déjà demandé la suite

Je rappelle que ton article est la suite d'une longue série, que l'on retrouve ici : moteur de recherche et algorithme, dont le PR est 4 Ca ne s'invente pas

Pour ce qui est du modèle qu'ils essaient de constituer avec le HITS, par rapport à celui de google, mon avis est :

Chacun essaie d'élaborer un nouvel algo, pour faire face au redoutable PR de google. Jusqu'à maintenant, il semblerait que seules des variantes de l'algo de google soient sorties. Les chercheurs seraient ils en mal d'imagination ? En fait, non, puisque celui ci a l'air de marcher.

Les tests effectués notamment par IBM ont l'air etonnament efficaces, et démontrent que l'on peut voir la toile sous un autre jour.

Internet et ses liens hypertextes offrent une masse d'informations illimitée, que les chercheurs ne savent pas exploiter. Google a été un pionnier, pour avoir cherché une autre manière (par rapport aux classiques annuaires de l'époque) d'aborder le problème que posent les sites internet.

Si IBM oriente son projet vers le B to B, il n'est pas impossible qu'ils crééent une structure 'grand public', voire meme que quelqu'un en mal d'inspiration rachète la licence pour le grand public.

Il faut rappeler que, sur internet, les années sont des siècles : Les premières places sont toujours arduement acquises, et facilement perdues.

Anonymus.

ps : comme dirait mon fils : Vivement mercredi prochain

**Cariboo** · 11 Mars 2004

En fait, on peut remarquer que depuis 97/98, aucune idée franchement nouvelle n'a été avancée dans le domaine des algorithmes de classement se basant sur la structure des liens...

A mon avis pourtant, tout n'a pas été exploré dans le domaine...

Mais nous sommes typiquement dans le domaine de la recherche appliquée : on ne cherche que ce dont on à besoin. Il semble donc qu'à l'heure actuelle, le besoin de nouvelles solutions ne se fasse pas encore suffisamment sentir...

Mais il y'a fort à parier que si la guerre entre Yahoo, Google et MSN perdure plus d'un an, on verra de nouvelles idées jaillir.

**Cariboo** · 18 Mars 2004

Tizel vient de publier la deuxième et dernière partie de mon article sur l'algorithme HITS.

HITS et CLEVER deuxième partie

L'article est à présent au complet.

Enfin... comme j'ai pu voir que cet article a suscité de la curiosité, je vais sans doute le compléter prochainement par un développement plus "technique" sur les principes mathématiques de cet algorithme.

sensei_21 · 16 Mars 2005

Salut,

je suis étudiant et je dois faire un projet sur le Webfountain

Vous avez tous l'air d'être des pros ds ce domaine pourriez vous me parler de certains élements et/ou me donner des liens pour compléter vos informations

# Le projet WebFountain (historique, moyens techniques)

# Procédures de recherche (crawler, spider ..)

# WebFountain et sémantique

# Architecture du moteur

# L'algorithme utilisé

# Les concurrents de WebFountain

# Les enjeux économiques du nouveau moteur

# Vers l'internet payant ?

Voilà les parties de mon projet

Merci à bientôt

Connexion

Article sur l'algorithme HITS

Sujets conseillés

Cariboo

Sebastien

smile

Cariboo

Anonymus

Cariboo

Anonymus

Cariboo

Cariboo

sensei_21

Veuillez vous connecter pour commenter

Parcourir

Activité