Aller au contenu

Algorithmie / crédibilité ?


Sujets conseillés

Bonjour à la MSN team, et bravo de cette initiative (heureuse à mon sens)...

Voila, je vais écrire quelques réflexions sur ce que m'évoque le nouveau MSN search, sachant que mon metier n'est pas le referencement (je suis enseignant-chercheur).

De ci de la on peut lire sur le web que le nouveau moteur de msn search a été fait "from scratch", avec de "nouveaux algorithmes" qui sont "tunés" sur un index de "5 milliards de pages", qu'on peut donner son avis sur les résultats, mais que les gens trouvent les résultats bons ...etc...

Ma question est donc quel est cet algorithme (au moins dans le principe) ? quels sont les bases théoriques qui font que cet algo donnent des résultats représentatifs de ce qu'est le web. Par exemple, quand on regarde le système de scoring de Google du début, on a une base théorique connue et balisée : une marche aléatoire normalisée sur le web (et donc quelquechose qui est asymptotiquement proche de ce qu'est le web vu par un visiteur qui se promenerait un peu au hasard sur le web). Bien sur le moteur de google a été depuis largement modifié, mais on sait qu'il y a un fondement solide. Qu'en est-il pour msn ? je ne pretends pas que ces fondements n'existe pas, mais juste qu'ils ne sont pas (comme souvent, et hélas) public...

Par ailleurs, existe t-il une API msn similaire à celle de Google ? si non, y a t-il une personne-contact que je puisse contacter chez vous pour discuter d'une étude (scientifique) que nous sommes en train de monter dans notre labo pour analyser par marche aléatoire le web et les taux de couverture "visible" de chaque moteur de recherche ?

Lien vers le commentaire
Partager sur d’autres sites

Une remarque en passant sur le "promeneur aléatoire", les chaînes de Markov et l'algorithme de Google...

J'ai lu, pour essayer de comprendre, pas mal des vieux articles sur les moteurs de recherche datant de la période 1995/1998... Et notamment ceux de l'Université de Stanford, dont l'article fondateur sur le pagerank.

L'impression générale qui s'en dégage, c'est que l'élaboration de ces algorithmes a plus été guidé par une logique empirique que vraiment théorique... La "formalisation théorique" est venue après. Elle n'a pas été très difficile d'ailleurs, car l'algo de Google ressemblait à des choses déjà connues et étudiées.

C'est encore pire si l'on considère l'algo le plus utilisé à l'intérieur dans le monde de la recherche d'information : tf*idf.

Cet algo a été étudié dans tous les sens, et un consensus se dégage apparemment maintenant pour dire que ses bases théoriques sont ... fragiles, et qu'il ne repose sur aucun modèle mathématique qui permettrait de réutiliser des découvertes théoriques pour l'améliorer...

Mais tant que cela marche...

Lien vers le commentaire
Partager sur d’autres sites

Par ailleurs, existe t-il une API msn similaire  à celle de Google ?
Je ne crois pas qu'il existe d'API msn, mais pour ceux qui sont intéressés par récupérer les résultats renvoyés par le moteur, c'est faisable via RSS, ce qui est plutôt intéressant. A+
Lien vers le commentaire
Partager sur d’autres sites

(..) mais pour ceux qui sont intéressés par récupérer les résultats renvoyés par le moteur, c'est faisable via RSS, ce qui est plutôt intéressant.

Bonjour,

Perso, j'utilise depuis quelques semaines des fils rss des résultats MSN Search (SAGE : aggrégateur de fils RSS pour Firefox).

Par exemple, pour le concours "sorcier glouton" : sorcier glouton

Lien vers le commentaire
Partager sur d’autres sites

Non, ce dont j'ai besoin c'est de faire 1000000 de requetes à la base de msn search pour savoir si des sites y sont.

Je sais, c'est baucoup, et j'aimerais aussi faire ca sur Google (mais la aussi il faut les contacter directement car l'api en tant que telle ne le permet pas).

Lien vers le commentaire
Partager sur d’autres sites

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...