Aller au contenu

Sujets conseillés

Posté

L'index de Google vient de connaître une mise à jour majeure ces derniers jours.

Cette "Google Dance" a été baptisée "allegra" par le forum WebmasterWorld.

La propagation des index sur les différents datacenters a été lente, et cahotique. Un comportement qui rappelle celui des "anciennes" google dance, telles qu'on les connaissait avant le rolling update...

C'est un indice d'une mise à jour profonde et importante de l'index...

Si l'on en juge par le nombre de webmasters qui ont réagi après cette dance, il apparaît qu'elle a produit également pas mal de mouvements dans les pages de résultats...

Beaucoup d'observateurs ont cru noter une certaine corrélation entre les "nouveaux" résultats, et de nouveaux critères qui pourraient prendre en compte la "co-occurence des termes".

Certains expliquent cela par l'intégration par google dans son algorithme, de l'algorithme LSA (Latent Semantic Analysis, souvent appelé Latent Semantic Indexing quand on parle de moteurs de recherche).

En réalité, il est hautement douteux que ce soit l'algorithme réellement utilisé par Google : il existe des dizaines d'autres algorithmes, qui peuvent être utilisés pour de la désambiguation semantique ou du clustering, moins gourmands en ressources et plus adaptés à un index de la taille de Google...

En plus, il y'a un problème théorique qui fait que, de toute façon, une analyse LSA est impossible sur un index aussi gros...

Mais peu importe : il semble effectivement, que Google ait "instillé" un peu plus de "sémantique" dans son moteur...

Un autre indice curieux : pendant de nombreux jours, un datacenter montrait un index dans lequel les sites corporates d'entreprise étaient curieusement relégués dans les profondeurs du classement, voire étaient totalement absents...

Cela me fait furieusement penser à l'image en négatif de ce que donnerait un index de Google utilisant "l'abstraction d'entité nommées" pour identifier correctement les pages corporate...

Cette voie de recherche avait été révélée par Peter Norwig en octobre dernier.

Si tel est le cas, nous ne sommes pas au bout de nos surprises...

Posté

Et concrètement ça signifie quoi ? :unsure:

Dans mon cas (peut être pas un bon exemple puisse que le site est tout jeune) j'étais 1ère page (Web, francophone, belgique) sur mon nom d'entreprise et puis à la google dance, je me suis retrouvé dans les profondeurs. :o

Malgré le fait que je me sois inscrit sur des annuaires ou sites partenaires...

1ère question qui me vient c'est que veut dire "co-occurence des termes" ?

Et 2ème question, quels seraient les conseils d'optimisation que tu préconiserais ?

Merci de tes conseils avisés :)

Posté

Quel serait l'intéret, pour un moteur, de reléguer les sites corporate au fond du classement ?

Le site d'une entreprise peut etre aussi pertinent qu'un site perso ?

Le problème de google, quant à la sémantique, est qu'ils se sont encré à renvoyer les pages contenant 'exactement' les termes entrés.

S'ils se mettent, maintenant, à renvoyer des pages dont le contenu signifie exactement ce qui est écrit, mais ne contenant pas ses termes, ils auraient alors à faire face à une certaine incompréhension du public.

D'ailleurs, ce serait remettre en question le principe même de leur moteur, non ?

Les autres moteurs ne sont pas encrés à ce problème, ce qui leur permet de jouer cette carte beaucoup plus facilement.

Posté

Le problème de google avec les redirections n'a rien à voir avec Allegra. Il existait déjà il y a un an. On en parle ici...

Posté
Le problème de google avec les redirections n'a rien à voir avec Allegra. Il existait déjà il y a un an. On en parle ici...

Tout à fait... rien à voir avec l'update Allegra. :)

On en a déjà parlé à plusieurs reprises sur le Hub, pas plus tard que la semaine dernière concernant l'annuaire Gartoo de Pwet-Pwet ;)

http://www.webmaster-hub.com/index.php?showtopic=9641

Dan

Posté (modifié)

D'ailleur Dan à ce propos, ton annuaire est clos?

:huh:

Modifié par guilcorp
Posté
D'ailleur Dan à ce propos, ton annuaire est clos?

:huh:

Mon annuaire ? La 'top sites' ?

Non, ce n'est pas clos.

Ton site netcast s'y trouve d'ailleurs ;)

Vas voir dans "Technique PC" ....

Posté

En faite c'est quand je suis loggé que ça marche pas :)

Catégories (0)

Liens (0)

C'est pas bien grave... ;)

Posté
Quel serait l'intéret, pour un moteur, de reléguer les sites corporate au fond du classement ?

Aucun... J'aurais dû soigner ma présentation des choses pour que personne ne se méprenne.

Je crois que Google cherche à faire l'inverse : sortir le site de la firme "Apple" quand quelqu'un tape "Apple Computers". Et pas une page parlant de culture de pommes gérées par ordinateur ;)

L'abstraction des entités nommées permet en tout cas de clairement associer la firme Apple à chaque mention de "Apple" dans une page, sans que cela soit confondu avec une "pomme".

Par ailleurs, j'ai noté que ce phénomène de disparition de pages "corporate" avait concerné un datacenter pendant la googledance... Mais pas l'index réellement accessible en ligne !

1ère question qui me vient c'est que veut dire "co-occurence des termes" ?

Si on prend une page qui parle de pommes, il y'a plus de chances qu'elle contienne le mot "jus", que le mot "voiture".

Le fait que des termes apparaissent fréquemment en même temps dans les mêmes textes (cooccurrence=apparaître en même temps), signifient que ces termes sont reliés par un lien sémantique.

L'algorithme LSA a justement pour objectif de calculer et d'identifier la "connectivité sémantique" entre les termes.

Une fois que l'on a établi le degré de connectivité sémantique entre les termes, cela permet de lever les ambiguités. Ainsi, si le mot "apple" apparait sur une page, est-ce une page qui parle d'agriculture biologique, ou d'ordinateurs ? Les autres mots de la page permettront de lever cette ambiguité.

Posté

Cariboo j'ai été frappé de plein fouet par cet update et je n'ai presque plus de trafic de Google, sauf sur des requetes ou franchement mon site ne merite pas d'etre posiitionné (alors qu'il le mérite sur d'autres). J'évoque ce sujet sur mon blog.

Si jamais tu veux enqueter sur ce sujet n'hesite pas a me contacter si tu a besoin d'infos, je ne m'y connais pas trop en algo semantiques...

En tout cas il y a clairement un probleme

Posté (modifié)
Le fait que des termes apparaissent fréquemment en même temps dans les mêmes textes (cooccurrence=apparaître en même temps), signifient que ces termes sont reliés par un lien sémantique.

L'algorithme LSA a justement pour objectif de calculer et d'identifier la "connectivité sémantique" entre les termes.

Une fois que l'on a établi le degré de connectivité sémantique entre les termes, cela permet de lever les ambiguités. Ainsi, si le mot "apple" apparait sur une page, est-ce une page qui parle d'agriculture biologique, ou d'ordinateurs ? Les autres mots de la page permettront de lever cette ambiguité.

<{POST_SNAPBACK}>

Pourquoi faut -il toujours employer un jargon qui ferait croire à une technique très savante et hermétique alors que cette technique me parait simple à comprendre et que je trouve d'ailleurs tout à fait pertinente.

en quelque sorte l'algo se baserait sur la densité des mots connexes rattachés à la requète, afin de determiner le meilleur sens possible.

Enfin je crois que c'est ca ;)

Modifié par smile
Posté

bonjour

J ai deux sites qui ont également disparu quasi completement du classement (tres bien classés avant)

Il est à noter qu'ils tournent tous les deux sur le meme script, peut etre y a t il quelque chose dans ce script que gg ne digère pas, une piste peut etre?

c 'est portail spectacle

Posté
bonjour

J ai deux sites qui ont également disparu quasi completement du classement (tres bien classés avant)

Il est à noter qu'ils tournent tous les deux sur le meme script, peut etre y a t il quelque chose dans ce script que gg ne digère pas, une piste peut etre?

c 'est portail spectacle

Tu as une redirection 302 sur cette page, vu que le site affiche la page index du répertoire welcome ;)

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...