Cariboo Posté 26 Janvier 2007 Posté 26 Janvier 2007 Citation d'un échange sur google groups John's absolutely correct. "Write naturally."[...] And I'll let you in on a little algo secret: There is no single magic number. People who say "The guaranteed optimal keyword density is [x]%" would ideally meet the same fate from an angry English teacher. Or Googler or Webmaster. [...] " Traduction : John a complètement raison : écrivez naturellement Et je vais vous faire partager un petit secret sur l'algo. Il n'y a pas un seul nombre magique. Les gens qui annoncent que "la densité optimale recommandée est de X% connaîtront le même sort de la part de leur professeur de français, d'un Googler ou d'un Webmaster. [à savoir qu'ils se feront taper sur les doigts pour avoir fait trop de répétitions] C'est un point que je répète régulièrement. Les moteurs de recherche font un usage immodéré de la linguistique statistique dans leurs algorithmes, ce qui veut dire que s'éloigner de la norme a des conséquences pénalisantes en général en terme de référencement. Une densité anormale peut éloigner un document de la similarité maximale avec une page donnée, voire déclencher un filtre qui va détecter une suroptimisation. En tout état de cause, le critère de densité par mots clé est tout sauf pertinent, car les statistiques sur le corpus (toutes les pages de l'index) sont tout aussi importantes pour savoir si une page peut oui ou non sortir en bonne position sur une requête donnée. Le problème c'est qu'en même temps, il y'a forcément une corrélation nette entre densité de mots clés et bon positionnement, mais c'est un "effet de bord" et non la cause. (Adam Lasnik est ingénieur chez Google, et travaille dans l'équipe de Matt Cutts)
lafleur Posté 26 Janvier 2007 Posté 26 Janvier 2007 Salut Cariboo Les moteurs de recherche font un usage immodéré de la linguistique statistique dans leurs algorithmes, ce qui veut dire que s'éloigner de la norme a des conséquences pénalisantes en général en terme de référencement. Une densité anormale peut éloigner un document de la similarité maximale avec une page donnée, voire déclencher un filtre qui va détecter une suroptimisation. (c'est moi qui mets en gras) Là, y un truc que j'ai jamais capté entre l'info que tu donnes (que je ne mets pas en cause) et la conclusion que tu en tires (qui me laisse perplexe). Faux ou pas, le principe de l'importance de la densité en mots-clés est quasiment unanimement partagé. Résultat : dans certaines thématiques, la plupart des pages qui montent un brin dans les résultats ont une densité élevée de mots-clés. Ne pas atteindre cette densité revient alors à s'éloigner de la norme, donc à se manger une pénalité. Donc la densité optimale de mots-clés est à évaluer (en analysant les pages des autres) et à prendre en compte. Si ce n'est pas la densité, c'est le nombre de mots-clés dans la page, bref, ne pinaillons pas là-dessus Mais tu dis le critère de densité par mots clé est tout sauf pertinent Si je suis d'accord sur le fait qu'écrire naturellement est la meilleure solution, je ne vois pas comment ta conclusion découle de ton raisonnement. Il doit donc manquer quelque chose à mon raisonnement... mais quoi ? De plus, le critère me semble pertinent puisqu'il peut être selon toi facteur de déclassement : il est donc bien pris en compte dans l'algo. Il faut donc tout de même y prêter attention, ne serait-ce que pour ne pas se faire plomber ? A te lire
captain_torche Posté 26 Janvier 2007 Posté 26 Janvier 2007 Si j'ai bien compris, ce n'est pas la densité de mots-clés (correspondant tous à une même thématique) en général qui est ciblée, mais la répétition de mots-clés identiques (pour "optimiser la page sur la requête correspondante"), qui serait pénalisée.
lafleur Posté 26 Janvier 2007 Posté 26 Janvier 2007 Captain Torche, c'est bien la densité qui est en question : Une densité anormale peut éloigner un document de la similarité maximale avec une page donnée, voire déclencher un filtre qui va détecter une suroptimisation.
Sebastien Posté 26 Janvier 2007 Posté 26 Janvier 2007 Ne pas atteindre cette densité revient alors à s'éloigner de la norme, donc à se manger une pénalité. Etre en dessous de la norme c'est ne pas être pertinent. Etre au milieu de la norme c'est être moyen. Etre dans le haut de la norme c'est être éventuellement jugé plus pertinent. Etre au dela de la norme c'est être suspect Je suis à 100% d'accord avec l'interprétation de Cariboo et vous renvoie à cet ancien billet : http://s.billard.free.fr/referencement/ind...e-des-mots-cles
Patrick Posté 26 Janvier 2007 Posté 26 Janvier 2007 Salut, je rejoins les conclusions de Cariboo. La répétition anormale (je parle de grammaticalement ou linguistiquement) de mots est plus pénalisante chez Google que bienfaisante. Il faut écrire pour les lecteurs et non pour les moteurs : c'est là le secret de la réussite sur Google. Maintenant, la densité de mots clés n'est pas à placer aux oubliettes non plus. La densité des mots clés pour des outils comme Voià, Live et Yahoo à son importance. Faut il alors optimiser des pages pour les internautes (donc Goolge) et d'autres pour les autres outils ? A vous de voir mais je dirais oui ... pour l'instant en tout cas, les algo des autres moteurs sont également susceptibles de donner moins d'importance à la densité qu'ils ne le font encore aujourd'hui. ++ Patrick
lafleur Posté 26 Janvier 2007 Posté 26 Janvier 2007 Je précise : je ne fais moi-même pas du tout attention à la densité d'un ou de plusieurs mots quand je mets une page en ligne Ce que je veux dire, c'est que si j'ai compris quelque chose au premier post (ce qui est, j'en conviens hélas, pas sûr du tout ), si sur une thématique on observe une densité moyenne élevée de mots-clés dans les pages existantes et bien classées, ne pas atteindre cette densité (donc s'éloigner de la norme) est pénalisant. Et que dans ce cas, il est bon de l'augmenter, donc éventuellement de retoucher un texte écrit naturellement pour le doper. Ce qui, théoriquement, ne devrait pas être bon... Je suis un peu perdu
Sebastien Posté 26 Janvier 2007 Posté 26 Janvier 2007 La norme s'établit sur l'ensemble du web, pas sur une thématique. En gros on établit une courbe de distribution de la densité et on définit une fourchette de normalité. En dessous de la fourchette c'est du manque de pertinence, au dessus c'est probablement du spam.
Leonick Posté 26 Janvier 2007 Posté 26 Janvier 2007 La norme s'établit sur l'ensemble du web, pas sur une thématique. En gros on établit une courbe de distribution de la densité et on définit une fourchette de normalité. En dessous de la fourchette c'est du manque de pertinence, au dessus c'est probablement du spam.Comme le but est de faire des pages pour les visiteurs et pas que pour les moteurs, il ne serait pas surprenant qu'ils prennent leur "normalité" non sur le web, mais off-line, sur des revues, livres, etc... l'OCR étant très pratique.
lafleur Posté 26 Janvier 2007 Posté 26 Janvier 2007 Oui, le principe global, c'est assez clair (enfin je crois). Mais au final, la norme s'établit forcément sur une thématique, car les pages hors thématique contiennent peu ou pas le mot-clé en question (peu de pages sur les boulons contiennent le mot banane par exemple), donc sauf si j'ai pas capté un truc les pages hors thématique ne sont pas prises en compte. De plus, une "fourchette de normalité" ça veut dire une densité optimale (la meilleure possible), et ça Cariboo dit que ça n'existe pas Ou plutôt, il dit "Il n'y a pas un seul nombre magique", donc il y en a plusieurs. Un par thématique ?
Jeff Posté 26 Janvier 2007 Posté 26 Janvier 2007 Jai limpression que Cariboo parle de la densité comme moi je parle du PR quand je dis : je me cite (Le PR ça ne sert à rien). La densité a une incidence mais je crois que cela est plus une recette de grand-mère à adapter à chacun des sites et à leur thématique. La densité dun mot clé est à mesurer sur le contrôle dun site qui aura été fait pour les moteurs de recherche afin de se positionner sur un mot clé. On se trouve en principe dans ce cas avec un site sur optimisé, il faut donc mesurer les occurrences et déterminer le % correct. Il ny a quà ramener cette densité à 0 (pour un groupe de mots clés) pour voir les difficultés à acquérir du trafic sur la thématique. Je ne dis pas quil faut absolument mesurer loccurrence dun mot clé mais voir si les mots ne sont pas mélangés dans plusieurs thématiques et veiller à ce que leur poids ne soit pas démesuré par rapport au site : Chaque mot a un poids sur une page et il peut être positif ou négatif mais pour déterminer quel filtre sapplique à la page ou au site (filtre ne veut pas dire pénalité) le moteur mesure tout un tas dautres éléments grâce à son algo. Pour exprimer mon sentiment, je dirai que pour déterminer le poids dun mot clé dans une page le moteur aurait besoin de : - Mesurer le nombre de requêtes effectuées sur ce mot ou groupe de mots dans son moteur. - Mesurer le nombre de pages du site - Mesurer les thématiques abordées par le site - Mesurer la position et le nombre de mots dans la page (title, desc, Hxx, contenus etc .. ) - Mesurer lindice de popularité (Le PR et oui on y revient) - Etc. ... Pour conclure ma vision des choses je dirai : On doit mesurer la densité pour être honnête pas pour le contraire ; de là à dire quelle ne sert à rien jen suis pas si sûr !! Jeff,
Leonick Posté 26 Janvier 2007 Posté 26 Janvier 2007 Pour moi, la densité devrait s'analyser en faisant abstraction de notre côté webmaster et en se demandant si notre page (ou site) nous paraitrait normale sur du off-line, dans un magazine par exemple. Ou si on se dirait "c'est quoi son article tout nul, il me répète 3 fois les mêmes choses"
karnabal Posté 26 Janvier 2007 Posté 26 Janvier 2007 (modifié) il ne serait pas surprenant qu'ils prennent leur "normalité" non sur le web, mais off-line, sur des revues, livres, etc... l'OCR étant très pratique. Je trouve l'hypothèse intéressante. J'ai volontairement joué la carte de la densité (site en signature, sur une ou deux expressions clés par pages, avec des taux compris entre 2,5 et 5%). Même si mon texte est truffé de mots-clés je doute franchement Dans quelques mois je pense que je changerais de stratégie, mais au préalable je compte bien procéder à un test sur quelques une de mes pages. Je tâcherais d'en rendre compte sur le Hub. Modifié 26 Janvier 2007 par karnabal
lafleur Posté 26 Janvier 2007 Posté 26 Janvier 2007 Trop compliqué pour moi ton truc Jeff Je vais continuer à ne pas m'occuper du poids des mots-clés dans mes pages et reoublier ces histoires de densité : quitte à perdre un peu de trafic, je préfère publier des trucs en joli français (ou au contraire faire les répétitions nécessaires si le type de texte le demande, ce qui arrive) plutôt que de faire des contorsions pour coller à des hypothétiques chiffres idéaux. Le référencement technique, c'est trop balèze pour moi
thick Posté 26 Janvier 2007 Posté 26 Janvier 2007 Pour argumenter dans le sens de Cariboo, je citerais... Cariboo En effet, c'est une légende urbaine du référencement que de se baser sur la densité de mots clés. Même si je dois contredire mes potes Jeff et Lafleur, il ne faut pas utiliser cet indice qui ne veut absolument rien dire pour moi. La densité de mots clés calcule le nombre de mots clés par rapport au contenu/longueur de la page . Or les moteurs calculent en terme d'occurences par rapport aux mots de la page (sans incidence sur la longueur de la page), aux mots des autres pages, aux mots de la page des concurrents sur la requête et aux autres pages des sites des concurrents sur la requête... et j'en passe. Il n'y a aucun outil aujourd'hui qui est capable de me sortir ce genre de stats. Bref PageRank et densité c'est de la pure perte de temps ::
Cariboo Posté 26 Janvier 2007 Auteur Posté 26 Janvier 2007 En fait, c'est le fait de potasser les méthodes statistiques utilisées par les linguistes qui m'a fait comprendre pourquoi, sans penser à des filtres sophistiqués, le "keyword stuffing" pouvait avoir des conséquences néfastes... Un moteur cherche à déterminer, une requête étant donnée, un classement des pages les plus "pertinentes". Ce classement utilise différentes méthodes (calculs de distance=similarité, calculs probabilistes...) pour déterminer les pages les plus proches de la requête. De nombreux autres critères pondèrent ces résultats pour éviter que trop de pages ayant des notes proches soient fournies à la queue leu leu, ces critères complémentaires permettent donc d'améliorer la pertinence perçue par l'internaute. Toutes les méthodes de calcul poursuivent le même objectif, donc les mêmes causes produisent les mêmes effets. Si on prend la plus classique, et la plus intuitive (le cosinus de Salton), on definit un espace vectoriel à N dimensions (N étant égal à l'ensemble des termes signifiants présents dans le corpus (l'ensemble des pages web indexées), c'est à dire un nombre très grand). Dans cet espace vectoriel, chaque axe permet de représenter la similarité par rapport à un terme. Un document est donc symbolisé dans ce modèle comme un vecteur dont l'orientation dans l'espace (ses coordonnées spatiales) définit (pour schématiser) son thème. Une requête de quelques mots est elle aussi un document qui peut également être symbolisé par un vecteur dans l'espace vectoriel de Salton. Un simple calcul de distance permet de savoir quels sont les documents "proches" sémantiquement de la requête. L'ajout d'un seul mot dans un document change subtilement l'orientation dans l'espace du document. L'ajout d'un paragraphe sur le même thème aura tendance à changer aussi l'orientation, mais globalement, l'orientation du vecteur dans l'espace restera identique, à peu de choses près... Le keyword stuffing par contre fait dévier le vecteur plus vite. Or le problème, c'est que les coordonnées ne sont pas calculées uniquement par rapport à des infos statistiques sur le document et la requête, mais sur toutes les pages web !! Ce qui veut dire qu'en général, on ne connait pas les coordonnées de la requête dans cet espace là, donc le keyword stuffing peut tout aussi bien éloigner de la bonne position que s'en rapprocher. C'est ce que l'on observe empiriquement. Avec ce modèle en tête, on se rend compte assez vite que le keyword stuffing marche par construction sur des requêtes à un ou deux termes, mais que cela devient plus aléatoire dès que l'on dépasse trois termes. Mal pensé, l'ajout de mots clés entraine généralement dans ce cas un impact négatif. Or les requetes à trois mots et plus deviennent la norme... C'est pour cela que jouer sur la densité de mots clé devient une mauvaise idée. Il faut ajouter que la proximité est avant tout une question d'"angle", mais que si on prend en compte le poids des termes (la longueur des vecteurs projeté sur chaque axe), alors tout dépend des autres critères de l'algo et de leur pondération. Il est clair que chez tous les moteurs grand public, un équilibre subtil existe entre les deux, ce qui permet à des documents qui ne possèdent pas l'expression recherchée répétée des dizaines de fois sur la page de sortir dans les premières positions.
thick Posté 26 Janvier 2007 Posté 26 Janvier 2007 Si on prend la plus classique, et la plus intuitive (le cosinus de Salton), on definit un espace vectoriel à N dimensions (N étant égal à l'ensemble des termes signifiants présents dans le corpus (l'ensemble des pages web indexées), c'est à dire un nombre très grand). A force de t'entendre parler du cosinus de Salton je crois que j'ai trouvé ton nouveau surnom Il faut ajouter que la proximité est avant tout une question d'"angle", mais que si on prend en compte le poids des termes (la longueur des vecteurs projeté sur chaque axe), alors tout dépend des autres critères de l'algo et de leur pondération. Il est clair que chez tous les moteurs grand public, un équilibre subtil existe entre les deux, ce qui permet à des documents qui ne possèdent pas l'expression recherchée répétée des dizaines de fois sur la page de sortir dans les premières positions. Pourquoi tu rapproches proximité et angle ? Peux-tu préciser stp ?
Régis Posté 27 Janvier 2007 Posté 27 Janvier 2007 Bravo pour l'exposé Cariboo... mais certains points techniques (cosinus de Salton, etc...) sont au delà de mes connaissances actuelles. La discussion sur la "thématique" m'a fait resurgir un souvenir... A une réunion de Webmasters, un des membres m'avait exposé sa théorie sur la densité des mots. Selon lui (je résume) : GG se basait sur les rubriques de l'ODP pour définir une densité moyenne par rapport à une thématique donnée. Donc, si "ta" densité était supérieure (pas trop supérieure) cela était favorable à un meilleur positionnement. A moduler, bien sûr, avec les autres paramètres de référencement et l'étude des sites en 1ères positions.
Cariboo Posté 27 Janvier 2007 Auteur Posté 27 Janvier 2007 Dans ce modèle, deux vecteurs qui sont orientés de la même façon (ils ont donc un angle nul entre eux) représentent deux documents dont les coordonnées dans l'espace "sémantique" sont réparties de la même façon. Ce sont probablement des documents parlant d'un thème commun. Par contre ces deux vecteurs n'ont pas forcément la même longueur... La projection de cette "longueur" sur chaque axe mesure le poids de chaque terme dans ce document. Sauf qu'il y'a plusieurs manières de calculer le poids d'un terme dans un document. Mais en règle générale, on pondère le poids d'un terme dans un document donné par la fréquence des documents contenant ce terme. Ce qui permet d'éliminer le "bruit de fond" dû aux mots les plus courants. Déjà, le fait de savoir cela permet de comprendre pourquoi la notion de densité normale est variable : elle varie d'un document à un autre, et d'une requête à une autre. Le terme "globicéphale" est présent dans un faible nombre de documents rapporté au nombre de pages web. La présence de deux fois le terme globicéphale dans une page en fait un document pour lequel le poids "globicéphale" va être très important. Si on rajoute une fois baleine, et une fois cétacé, cela oriente la page dans une direction qui la fera "matcher" plutôt avec une requête sur les cétacés que sur autre chose. A l'inverse, la présence d'une seule occurrence du mot "web" sera quasiment sans effet, car le poids de ce terme va être jugé ridicule. La longueur du vecteur permet de classer les documents entre eux. Le seul problème c'est qu'entre deux documents "orientés" de la même façon, celui qui a le vecteur le plus long n'est pas forcément le plus pertinent. C'est juste celui dont le poids des termes projeté dans une direction donnée est le plus élevé (cela fait longtemps qu'on ne confond plus similarité et pertinence) Donc ceux qui fabriquent les moteurs de recherche ont appris à pondérer les critères liés au poids des termes avec d'autres critères (comme le pagerank, mais aussi tous les subtils critère "in page") qui eux sont là pour augmenter la pertinence des réponses telle qu'elle est attendue par l'internaute. Bref pour résumer : 1°) Le keyword stuffing a plus ou moins d'effet en fonction de la requête ciblée. Cela dépend, non pas du caractère concurrentiel ou non de la requête, mais de la rareté ou non des documents contenant les termes ciblés (ceci dit, si la requête est concurrentielle, les pages contenant ces termes se multiplient rapidement) 2°) Dans la plupart des cas, les méthodes "bourrines" de keyword stuffing rendent la page moins pertinente sur les requêtes à plusieurs mots (dommage...). Les méthodes "scientifiques" étant par ailleurs plus difficiles à utiliser que la rédaction en langage naturel, cette dernière méthode est préférable. Je rappelle au passage que cela rend aussi vos sites plus intéressants il ne serait pas surprenant qu'ils prennent leur "normalité" non sur le web, mais off-line, sur des revues, livres, etc... l'OCR étant très pratique. Et pourtant ! Non partir de statistiques faites à partir de la langue des livres donne des résultats terriblement mauvais sur le web. Ce qui est analysé c'est bien le contenu des pages web indexées, pas autre chose.
lafleur Posté 27 Janvier 2007 Posté 27 Janvier 2007 La densité d'un mot-clé est donc bel et bien un critère majeur du classement des pages dans les résultats. Majeur au point que Google par exemple effectuerait des calculs statistiques sur l'ensemble de son index pour obtenir des densités optimales, afin, entre autres, de détecter les pages suroptimisées et de les pénaliser... ce qui revient à donner un bonus aux pages proches de la densité optimale (tout dépend si on regarde le verre à moitié vide ou à moitié plein). Après en effet, on peut dire que nous ne pouvons pas connaître la densité optimale aux yeux de Google de telle ou telle occurrence, d'autant qu'elle doit changer sans cesse selon les nouveaux documents mis en ligne et analysés et que rédiger en langage naturel est une méthode rapide et efficace pour obtenir de bons résultats en termes de positionnement, sans même parler de l'internaute Ou bien à l'opposé nous pouvons faire quelques tests, en nous inspirant des pages bien classées sur une requête, pour essayer de déterminer empiriquement une fourchette de densités acceptables, en partant du principe par exemple que sur 30 pages bien classées, on peut supposer que 25 d'entre elles ont une densité située dans la bonne fourchette (les autres sont bien placées pour d'autres raisons) et donc en avoir une bonne idée. Avec de l'expérience et une bonne intuition, on doit pouvoir parvenir à de bons résultats comme ça. Les deux méthodes ont leurs avantages et leurs inconvénients. En langage naturel, les rédacteurs ont leur style et celui-ci peut être pénalisé par un algo, pour dix mille raisons (un texte plein de métaphores ne doit pas être classé comme un texte plein d'exemples). Et savoir ce que veut dire "densité d'un mot dans une page" pour Google, avec tous les endroits d'une page qu'il doit pondérer hyper finement (présence dans des balises diverses) ne me paraît pas simple. Mais après tout, on peut reproduire et améliorer un mécanisme sans le connaître, comme on faisait du vin des millénaires avant même d'imaginer ce que peut être une molécule d'alcool
Cariboo Posté 27 Janvier 2007 Auteur Posté 27 Janvier 2007 lol ! J'ai l'impression que tu m'as bien compris. Je vais juste préciser deux trois trucs pour éviter que tes formulations soient mal interprétées par d'autres. La densité d'un mot-clé est donc bel et bien un critère majeur du classement des pages dans les résultats. Sauf que formulé comme cela et sorti du contexte, cela devient faux. Il ne s'agit pas d'une "densité", le terme est impropre et trop connoté, mais d'une fréquence. Et ce n'est pas "une" fréquence qui constitue le critère, mais l'ensemble des fréquences de tous les termes. Sans compter qu'il existe un ordre caché dans ces stats (de niveau 2) qui révèle les relations entre ces termes. Relation que l'on peut aussi prendre en compte au plus bas niveau en tenant compte de la distance entre les termes... Bref, isoler dans le raisonnement la fréquence d'un seul terme conduit souvent à de fausses conclusions. Majeur au point que Google par exemple effectuerait des calculs statistiques sur l'ensemble de son index pour obtenir des densités optimales, afin, entre autres, de détecter les pages suroptimisées et de les pénaliser... ce qui revient à donner un bonus aux pages proches de la densité optimale (tout dépend si on regarde le verre à moitié vide ou à moitié plein). Attention, tu as parfaitement raison, mais je ne crois pas que les suroptimisations soient détectées et prises en compte dans l'algo de base. Il me semble par contre facile de faire un filtre antispam sur ce genre de critères pour détecter des pages anormales et de les déclasser automatiquement (toujours le distinguo chez Google entre "filtre" et "algorithme de classement"). Ou bien à l'opposé nous pouvons faire quelques tests, en nous inspirant des pages bien classées sur une requête, pour essayer de déterminer empiriquement une fourchette de densités acceptables, en partant du principe par exemple que sur 30 pages bien classées, on peut supposer que 25 d'entre elles ont une densité située dans la bonne fourchette (les autres sont bien placées pour d'autres raisons) et donc en avoir une bonne idée. Avec de l'expérience et une bonne intuition, on doit pouvoir parvenir à de bons résultats comme ça. Etudier les 30 premiers résultats (plutôt les 100 d'ailleurs) en aspirant les snippets pour les triturer à grand coup d'outils de statistiques linguistiques permet effectivement d'en tirer des conclusions valables pour savoir comment doper une page de termes idoines avec le bon dosage pour arriver en tête des résultats. Mais l'étude des densités seules ne donnera rien. Il faut étudier les taux de cooccurrence, et savoir utiliser la méthode. Les expériences que j'ai menées m'ont montré que le jeu n'en valait pas la chandelle. Déjà il faut passer du temps pour acquérir l'expérience nécessaire pour utiliser les résultats intelligemment. Ensuite le fait de ne pas connaître suffisamment d'infos sur le corpus (l'index du moteur) fait que tout cela est approximatif. Et de toute façon, écrire en langage naturel est moins compliqué ... Et savoir ce que veut dire "densité d'un mot dans une page" pour Google, avec tous les endroits d'une page qu'il doit pondérer hyper finement (présence dans des balises diverses) ne me paraît pas simple. Tu as raison, c'est bien le problème. Les critères "in page" changent radicalement le classement obtenu à partir du seul poids des termes, c'est ce qui rend vain un travail systématique sur la densité de mots clés.
thick Posté 27 Janvier 2007 Posté 27 Janvier 2007 OK, peut-on faire marche arrière svp ? A mon avis, il faut redonner une définition du terme "densité" tel qu'on l'emploie ici... Pour moi, cela veut dire implique un rapport entre l'occurence d'un ou plusieurs mot(s) dans le contenu d'une page et le nombre total de mots de cette page. Ainsi, je redis que (pour moi) l'indice de densité est une chimère du référencement car je n'ai jamais vu où un moteur calculait le rapport d'occurence par rapport à la longueur de la page... A vous de me définir "densité". Au lieu de densité, je parlerais plutôt d'occurences, ... mais plus jamais densité !!!
lafleur Posté 28 Janvier 2007 Posté 28 Janvier 2007 Oulaaaaaaaaaaaaaaaah A mon avis, il faut redonner une définition du terme "densité" tel qu'on l'emploie ici... Sans moi Je préfère garder "densité" au sens premier du Robert, avec tout le flou qui va autour car ce flou traduit parfaitement notre méconnaissance du fonctionnement de Google. Nous avons une idée des principes mais chacun se fait sa propre conviction sur ce que ça peut bien signifier exactement, histoire d'avoir une ligne directrice pour bosser ! Parce que si on commence à se lancer dans une recherche de rigueur et de précision, on va vite se demander ce que peut bien signifier exactement "langage naturel". A première vue, on pense qu'un texte en langage naturel est un texte qui n'est pas écrit pour le robot, mais pour l'internaute. Soit. Mais ça veut dire quoi ? Un texte poétique est-il naturel ? Un texte qui colle à de strictes règles universitaires est-il naturel ? Un texte de vente (tu sais mieux que moi qu'on n'a pas attendu Google pour savoir que la répétition et la redondance sont indispensables dans un discours commercial) est-il naturel ? Un texte en sms est-il naturel ? Je refuse donc d'aller trop loin dans l'analyse de la chose : je préfère largement me vautrer dans le flou et le pifométrique et choyer l'empirisme et l'intuition. A force de se planter, on arrive parfois à progresser Mais c'est quand même avec intérêt que je lirai les propos de ceux qui se lancent dans la réponse à ta question !
thick Posté 28 Janvier 2007 Posté 28 Janvier 2007 Ben voilà mon cher Lafleur, j'ai bien le sentiment qu'on ne parlait pas tout à fait de la même chose Mon problème avec densité est surtout que ça implique la taille du corpus et ça je pense que c'est plonger dans le flou artistique lol
Cariboo Posté 28 Janvier 2007 Auteur Posté 28 Janvier 2007 Ceci dit, en toute rigueur, rien n'interdit d'appeler densité le ratio nombre d'occurrences / nombre total de mots. Quand je parle de fréquence, c'est bien la même définition. Dans la notion habituelle de densité (ou de fréquence des termes), la longueur du document n'est pas prise en compte. Un mot présent une fois dans un texte de 100 mots, aura la même fréquence qu'un mot présent deux fois dans un texte de 200 mots. Quand je dis que je me méfie de l'appellation densité, je fais allusion aux connotations propre au monde du référencement pour ce terme, et aussi au parallèle malheureux fait avec la notion habituelle de densité (poids volumique / poids volumique). Parce que si on parle de "poids" des termes, cela devient autre chose, dans une mesure de type tf*idf, le poids est donné par la formule tf*idf, et ce que l'on appelle densité, n'est que tf. Parce que si on commence à se lancer dans une recherche de rigueur et de précision, on va vite se demander ce que peut bien signifier exactement "langage naturel". A première vue, on pense qu'un texte en langage naturel est un texte qui n'est pas écrit pour le robot, mais pour l'internaute. Soit. Mais ça veut dire quoi ? En voila une question qu'elle est bonne Effectivement, comme toi, je pense que cette notion de "langage naturel" n'a plus beaucoup de sens, et en a de moins en moins avec le temps. Car plus le temps passe, plus les termes contenus dans les pages web y sont placés par des programmes ou proviennent de publicités, la part du contenu réellement 100% naturel diminue. C'est d'ailleurs pour cela que le corpus constitué par les pages web est différent de ce que l'on trouve dans les livres, et que la "norme" du langage dans les pages web, n'est pas celle du Littré. Donc quand Google nous dit "écrivez en langage naturel", ils font fi d'une réalité que pourtant ils connaissent bien. Et je ne parle même pas du spam. Il faudrait plutôt dire toujours "faites des pages pour les internautes, pas pour les moteurs", à la rigueur. Mais ça aussi c'est faire fi des enjeux, et des imperfections des moteurs. Mon problème avec densité est surtout que ça implique la taille du corpus et ça je pense que c'est plonger dans le flou artistique lol Ca on est d'accord. Il y'a trop de paramètres inconnus qui parasitent les tentatives d'expérience, et une approche 100% scientifique du problème est impossible. Tout cela reste empirique. Le fait de savoir certaines choses permet juste d'éviter de se fourvoyer et de mieux voir la lune derrière le doigt qui l'indique.
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant