Aller au contenu

Cariboo

Membre+
  • Compteur de contenus

    3 376
  • Inscrit(e) le

  • Dernière visite

Tout ce qui a été posté par Cariboo

  1. Ca c'est une approche "dialectique". Le référencement n'a rien à voir avec un débat politique. Je sais que sur d'autres forums, on assiste souvent à ce genre de débats, mais cela ne fait pas avancer le schmilblick. Pour que ça puisse être intéressant, il faudrait tous se situer dans le même paradigme, or ce n'est pas le cas. Cette formule est inventée, de l'aveu même de l'auteur. Donc je ne vais pas me lancer dans de la quadricapillaroctomie, puisqu'on sait que la formule est fausse, l'étudier n'a aucun intérêt. Ca c'est une approche plus scientifique. J'observe depuis longtemps les forums SEO. La propension de beaucoup à ignorer les avertissements, les précautions de langage, m'a conduit a apprendre qu'il est important de dire les choses clairement, quand des spéculations ou des sonneries avec un s comme dans crocodile se disent sur le net. Et dieu sait si cela arrive souvent. D'où mon propos clair et net "laissez tomber, passez votre chemin". Quant à vulgariser notre savoir etc... Un post dans un forum ne suffira jamais pour expliquer tout cela. Un bouquin entier à la limite. Ce travail d'explication, de vulgarisation, je pense le faire bien plus que d'autres. Mais il faut lire les articles déjà publiés, ce qui demande un peu d'effort. Il ne faut pas croire que l'on peut savoir comment fonctionne un moteur sans y passer un temps certain.
  2. Et bien justement c'est en pensant aux débutants qui sont très "perméables" aux recettes de cuisine et aux billevesées que l'on dit "passez votre chemin, n'allez pas lire ce truc". Et s'il y'a un truc que je sais, c'est qu'à part les gens qui travaillent chez Google, personne ne connait exactement la formule. Certains ont plus d'infos que d'autres, mais personne n'a toute l'info. Ceux qui en savent le plus et sont responsables évitent de balancer dans la nature des infos qu'ils savent par essence incomplètes, partiellement erronées et source d'erreurs ou d'errements. En tout cas pour rebondir sur l'exemple de Sébastien, cette formule établit des poids qui ne collent pas avec l'expérience de nombreux référenceurs (elle ne parle même pas de critères comme la fréquence des termes, la similarité etc...). Donc oui, il y'a des chances que prendre cette formule pour parole d'évangile aboutisse à des déconvenues en matière de référencement.
  3. Ca dépend de ton public, tu peux aussi détecter l'origine géographique en fonction de l'IP. Mais en général, c'est une bonne méthode. Certains utilisent plutôt un script qui change le contenu en fonction de la langue du navigateur. Ce qui évite la redirection. Mais cela ressemble plus à du cloaking, à utiliser intelligemment. 2. La fonction header("Location : ") renvoie un code 302. Google apprécie?? Il n'en tient pas compte?? Aucune importance, mon site sera indexé de toutes façons??? Cela ne gênera pas forcément l'indexation, mais il vaut mieux une redirection 301. Tu peux indiquer dans la fonction header le code d'erreur à envoyer.
  4. Ce n'est qu'un linkbait, et cela ne contient aucune information utile ! Cette formule est parfaitement imaginaire, et ne décrit pas la réalité.
  5. Je publie ce soir le volet n°2 du cycle d'articles sur le web sémantique. [2 : Les fausses amies, les balises sémantiques Si j'aborde le sujet du web sémantique, c'est que je trouve cela très intéressant mais aussi par volonté de clarifier les choses en distinguant les outils "sémantiques" en RI et le web sémantique. Là, parler des balises sémantiques, c'est là même chose, mais à propos du web sémantique 1. C'est intéressant 2. Il est important d'expliquer que "respecter la sémantique des pages" ce n'est pas faire du "web sémantique" En fait, cela n'a rien à voir, et c'est pour cela que je les appelles les "fausses amies". En fait c'est le terme "sémantique" qui est un faux-ami (cela ressemble à un mot dont on connait le sens, mais cela n'a pas en réalité le même sens). Mais n'y voyez rien de péjoratif. Par ailleurs, j'aborde un sujet parfois abordé sous un angle soit "prosélyte normes W3C" soit "anti normes, à bas les règles" : un code valide, un code respectueux de la "sémantique", améliore-t'il le référencement. La réponse est oui, mais pour des raisons plus viles que celles avancées parfois.
  6. Après une (trop ?) longue interruption, je reprend la publication de mon cycle d'articles sur les statistiques linguistiques et la sémantique dans les moteurs de recherche. La troisième partie aborde le "web sémantique", un projet qui nous éloigne un peu de notre sujet de base (la sémantique) même si c'est clairement un sujet cousin. L'objectif de cette série de quatre articles est de faire un point sur ce dossier, de manière à éviter des confusions avec les autres outils sémantiques utilisés dans les outils de recherche. Le premier article que je publie ce soir commence par un rappel des concepts du "web sémantique" Web Sémantique : Définition et principes Dans les trois articles suivants, nous aborderons : - les "fausses amies", à savoir les balises sémantiques, souvent confondues avec le web sémantique - le débat sur le caractère utopique ou au contraire visionnaire du web sémantique - enfin, nous concluerons en parlant de l'utilisation possible (ou non ) du web sémantique par les différents outils de recherche
  7. Non. J'ai déjà vu des théories fumeuses là dessus, mais je crois vraiment qu'on ne peut tirer aucune information sur l'importance des liens de l'ordre d'apparition de ces liens dans les résultats donnés par link : Pour Google 1. Link n'affiche pas tous les liens 2. Les critères de choix des liens affichés ne sont plus liés au pagerank 3. J'ai observé de nombreux contre exemples démontrant que les liens ayant le plus fort potentiel de pagerank pouvaient, soient être absents de la liste, soit rejetés dans les tréfonds des pages de résultats. Sur Yahoo je ne me suis jamais posé la question. Mais il faut dire que je m'intéresse plus au trafic apporté par les liens que leur poids dans un algorithme de popularité par les liens.
  8. Et pourtant je me suis calmé... La pagination cela tombe bien parce que je risque de faire gonfler le compteur à nouveau dans les semaines qui viennent.
  9. Cariboo

    latin1_swedish_ci ?

    Il ne s'agit pas de la table d'encodage du contenu, mais de la table de collation (interclassement in french), c'est à dire celle qui gère l'ordre alphabétique (pour simplifier) et la correspondance é <-> E etc... La table la plus "standard" est bien celle mise par défaut par phpMyAdmin, c'est à dire "latin1_swedish_ci". Elle correspond parfaitement à ISO-8859-1. Latin general correspond à une autre variante de la table ISO-8859 donc à utiliser à bon escient... Bref, c'est normal que la collation par défaut pour une base en français soit latin_swedish et à moins de maîtriser à fond encodage et collations, je te conseille de laisser les paramètres par défaut. L'essentiel étant que tout soit cohérent (encodage en iso, collation en iso).
  10. Je pense même que c'est tellement contestable, et dénué de fondement, qu'il faut abandonner cette explication. La genèse de cette légende est une théorie fumeuse émise sur un forum américain (wmw) qui est devenue par glissement l'Explication avec un grand E.
  11. Comme Jan, je m'interroge ... Pour l'instant, le trafic apporté me semble très très marginal, sauf si l'on vit dans le monde des geeks et plus particulièrement dans leur blogosphère... Ce qui doit être un peu ton cas Sébastien (en sachant que ce sont des gens comme Sébastien qui me permettent de continuer à m'intéresser au monde des geeks et à leur blogosphère, donc ne voyez aucune "perfidie" dans mes propos). Bref, si quelqu'un crée un tag pour un de mes contenus, je lui dis merci. Mais je n'en demande pas, ni n'en crée, ni ne cherche à ce que certains en créent. Mieux vaut passer son temps sur d'autres choses...
  12. Tu as des délégués du personnel ou des délégués syndicaux dans ta boîte ? Cela pourrait être utile de les interroger. J'en déduis que dans ta boîte, on applique une grille rigide et on ne peut rien négocier ? Ou je n'ai pas bien compris ?
  13. Il n'y a pas eu de revalorisation de la grille des salaires des gens dépendant de cette convention collective. (Ma boîte dépend de cette convention) Les salaires minimaux dépendent du coefficient correspondant à ton poste. Légalement, le salaire minimal fixé par la convention collective peut tomber en dessous du SMIC. Dans ce cas, le SMIC est appliqué tout bonnement. Il n'y a pas de revalorisation automatique des "points" de salaire en fonction de la hausse du SMIC. Dans la pratique, rare sont les entreprises qui appliquent ces "planchers" fixés tellement bas qu'ils ne permettent pas de recruter ou de conserver des salariés. Par ailleurs, pour les web agencies, la nomenclature des postes qui détermine les coefficients minimaux applicable est difficile à utiliser, car les postes techniques sont "oubliés". Bref, c'est plutôt la grille interne de l'entreprise qu'il faut consulter. Par contre je te conseille de regarder attentivement le coefficient inscrit sur ton bulletin de salaire. Pour vérifier où il te situe, car le problème est souvent la disparité salariale entre gens qui ont le même poste et le même coefficient (l'ancienneté compte aussi).
  14. Il y'a une explication simple à ça : l'opérateur tilde, c'est de la sémantique appliquée, et le seul bidule de statistique linguistique connus de ces pseudos gourous était LSI/LSA, donc ils ont dit "bon sang, mais c'est bien sûr, c'est LSI". D'autant plus que le côté caché (latent) de cet outil rajoute au mystère ! Des méthodes de statistique linguistique applicables à ce genre de choses, j'en découvre tous les jours !! Alors pourquoi LSI ? Par exemple, une autre méthode pour obtenir l'effet escompté sont les outils de "clustering", et il en existe des dizaines de variantes. Heureusement, quelqu'un de chez Google a lâché depuis longtemps qu'ils utilisaient une ontologie pour obtenir les résultats de l'opérateur tilde, donc la messe est dite. Après je ne sais pas quelle méthode a servi pour bâtir cette ontologie : sont ils partis d'une ontologie existante comme l'ASO, ou ont ils construits à grand renfort de calculs statistiques, je ne sais pas.
  15. Euh, non ! En fait la méthode ayant tendance à éliminer tout ce qui est bruit pour dégager des correlations cachées (d'où le terme "latent" qu'il faut traduire par sous-jacent et non latent), il vaut mieux que les taux de coocurrence de départ soient bien différenciés pour obtenir des résultats "nets". Si on travaille sur un espace sémantique trop restreint cela donne de la bouillie pour chat... Bref, il faut pouvoir dégager des concepts différents, si on ne travaille que sur un concept, la méthode n'a pas d'intérêt.
  16. Pour autant que je sache (je ne manipule pas ces trucs tous les jours , loin de là), le problème c'est qu'effectivement avec LSI on a des difficultés sérieuses d'interprétation des résultats... Les "tours de magie" pratiqués sur la matrice termes x documents éliminent des dimensions et font apparaître des correlations entre des choses... parfois surprenantes. C'est un phénomène bien connu en statistique, "corrélation n'est pas raison". Donc deux termes soit disant reliés à un même concept sont parfois en réalité totalement déconnectés sur le plan sémantique, la corrélation provenant de l'écrasement d'une ou plusieurs relations dans un plan orthogonal... Choisir les termes à étudier fait partie des mesures permettant d'éliminer des résultats parfois... étranges. C'est pour cela que LSA est connu pour bien marcher en laboratoire, mais dès qu'on lui fait avaler n'importe quelle page web sans traitement préalable, on a souvent des surprises douloureuses.
  17. On peut calculer une matrice de concepts avec LSI sur n'importe quel type de termes. Et les calculs portent simplement sur des correlations statistiques entre des occurences de termes, ce qui veut dire que la grammaire est totalement ignorée dans l'histoire...
  18. Ces temps-ci je vois apparaître un peu partout des allusions à une méthode de statistique linguistique connue sous le nom de Latent Semantic Indexing (LSI, mais aussi appelée LSA c'est la même chose). Cela fait des années que LSI revient dans les conversations de salon entre référenceurs. A plusieurs reprises en effet, on a attribué certains changements dans l'algorithme de Google à l'introduction de LSI dans ses méthodes de "notation" des pages. Avec le temps, on a mis LSI à toutes les sauces. Il se raconte pas mal de bêtises dans le monde du référencement, mais en ce qui concerne LSI, je crois que l'on bat un record absolu dans le genre "délires complet". Après avoir lu ce matin encore un sujet affligeant sur le sujet dans un forum, je me suis dit qu'une petite mise au point s'imposait car je crois que quelques personnes sensées fréquentent le Hub, et que quelques infos sur le sujet pouvait empêcher certains de se faire intoxiquer... Car il y'a une dérive qu'exploitent de véritables charlatans : LSI devient un argument marketing, que certains utilisent avec une grande malhonnêteté intellectuelle... Exemple superbe du genre : http://www.free-seo-news.com/newsletter147.htm#facts Commençons par tordre le coup aux principaux bobards qui trainent sur le net : 1. L'opérateur ~ (tilde) de google à quelque chose à voir avec l'algo LSI Pas du tout... C'est bien de la sémantique appliquée, mais cela se base sur une ontologie, LSI n'a rien à voir là dedans 2. Les derniers changements dans Google montrent qu'ils utilisent LSI dans l'algo Il semble que l'algo de google donne de trop mauvais résultats en matière de polysémie pour penser que des calculs de ce genre soient réellement utilisés... Archétype de ce genre d'affirmation sans preuves : http://www.sitepoint.com/article/brandy-google-update Mais on peut parier sur le fait que Google travaille d'arrache pied à intégrer LSI ou une méthode cousine ou autre chose poursuivant les mêmes objectifs dans son algo, en résolvant les problèmes de calcul temps réel que ça pose... On peut se servir de LSI pour améliorer le référencement Oui, sauf que cet argument est généralement utilisé pour vendre des outils qui, soient n'utilisent pas LSI (les outils basés sur les indices de cooccurrence), soient l'utilisent de manière erronée et sont dangereux à utiliser. Mais c'est quoi LSI en fait Le système le plus utilisé dans les outils de recherche pour classer les pages est un calcul de similarité baptisé TF*IDF. Ces calculs sont effectués en partant du principe que les mots n'ont pas de relation entre eux, ce qui permet de faire des statistiques sur leur fréquence d'apparition en se fichant de leur contexte d'apparition. Cette méthode donne de très bons résultats... Mais intuitivement on devine qu'on perd avec cette méthode des informations utiles. Si l'on part du principe que dans un texte les mots sont en fait reliés par des relations liées au "sens" du document, on est amené à effectuer d'autre types de calculs. Deux grandes familles de techniques peuvent alors être utilisées pour analyser les documents : la méthode dite de l'Espace d'Information, et LSI. Dans la méthode de l'Espace d'Information, on crée une matrice carrée terme à terme, et on procède à une Analyse en Composante Principale pour trouver des corrélations entre les termes. Dans LSI on utilise une décomposition en valeur singulière (DVS) sur une matrice termes x documents. Ces techniques statistiques permettent d'extraire des informations sur les relations entre termes, et d'en déduire des infos sur la thématique d'un document ou d'une portion de document. Par thématique il faut entendre d'une manière plus générale "ce dont on parle là dedans". L'avantage de LSI est que cette méthode permet de découvrir une "méta structure" dans les corrélations entre termes dans un document. Mais pour info, ce n'est pas la seule (le clustering, ça marche aussi), et ce n'est pas forcément la plus facile à intégrer dans un outil de recherche...
  19. Pas grave, on va organiser un "before" ... J'arrive le samedi vers quatorze heures, donc j'ai une après-midi à tuer...
  20. Yep, en fait ce "dopage sémantique" est assez difficile à détecter, surtout s'il est inséré dans le corps même du texte ! Pour l'outil de Quintura, il semble qu'ils utilisent comme corpus les snippets des outils de recherche.
  21. Suite à une question de Sébastien Billard sur un article américain sur le sujet, j'ai pu constater qu'effectivement l'utilisation des tagclouds devenait la dernière mode pour améliorer le référencement. L'idée est d'améliorer le positionnement d'une page sur une thématique donnée en "dopant" la page avec des mots disposant d'un fort taux de cooccurence avec les mots de la page... S'il s'agit d'un nuage de tags élaboré à partir du contenu d'un site, le gain est anecdotique, car les mots sont déjà présents dans le site. Le fait d'extraire ces mots hors contexte et dans une présentation artificielle peut même avoir une influence néfaste sur le positionnement. Mais il y'a plus subtil : certains outils proposent des "mots clés" associés à une thématique donnée. Ces mots sont ceux qui ont un fort taux de cooccurence avec, soit ceux de la page, soit ceux de la requête ciblée. Ils sont calculés en fonction d'un corpus autre que celui du site, ce qui permet de découvrir de nouveaux mots. "Doper" une page pour qu'elle sorte en premier sur une requête donnée en insérant des mots qui ont un fort taux de cooccurence avec cette requête est une stratégie qui marche en général très bien. Une page consacrée à une thématique donnée contient un texte dont le contenu est orienté dans une "direction" proche de celle d'une requête caractéristique de cette thématique dans l'espace vectoriel de Salton. Le fait de "doper" la page permet d'augmenter le rapport signal sur bruit et de rapprocher encore la page de l'axe caractéristique de cette thématique précise. Le problème de ces outils est qu'ils sont proposés par des gens qui ne connaissent pas bien la linguistique statistique... Quand on calcule les taux de cooccurence de termes sur un corpus, les plus forts taux au dessus du seuil de détection correspondent à des thématiques plus générale que le document étudié, les plus faibles à des sous thématiques. Les résultats "en phase" avec la thématique du document sont au milieu du classement. L'art est de déterminer quels mots clés choisir. Bref, l'utilisation de ces outils a tendance à dévier l'axe du document, et non de le rapprocher de la "vraie thématique" ciblée. Le "dopage" par ajout de mots-clés de la même thématique est donc une arme difficile à utiliser. La solution la plus simple est en général d'utiliser des méthodes plus naturelles de rédaction. Voilà. Ces éléments résultent d'échanges de MP avec Sébastien, il me semblait dommage de ne pas en faire profiter la communauté.
  22. La fuite de pagerank est un phénomène réel, mais dans de nombreux cas, son impact est limité, voire annulé, et même plus que compensé par plusieurs facteurs... 1°) Si sur une page il y'a cent liens sortants, et un seul qui pointe vers un site externe, en partant du principe que tous les liens sont traités de la même façon (ce qui était le cas dans le pagerank d'origine, c'est peut-être toujours le cas), 99 liens vont donc faire fuir le PR... vers d'autres pages du site. Le "potentiel de PR interne" au site n'a diminué que d'un facteur de ... 1% (voire moins car il y'a un coeff de pondération sur le PR transmis). => la perte de PR n'est sensible que dans le cas des "dangling pages" et avec certaines structures de sites dissymétriques. 2°) Si la page A pointe vers une page externe baptisée B, et que B pointe à nouveau vers A, la fuite de PR est diminuée du PR transmis de B à A. Parfois B transmet plus à A que A à B (bref on gagne en potentiel de PR !!) => ne pas faire d'échange entre pages à cause de la fuite de PR est imbécile ! => tenir compte du PR aussi, car souvent l'enjeu est de +/- 0,05 % de potentiel de PR... Mieux vaut se demander le trafic que cela va générer, ou la pertinence des liens, ou l'intérêt éditorial du lien 3°) Le web est vaste, et le PR perdu ne l'est jamais pour tout le monde. Dans un ensemble de sites fortement liés entre eux (sites sur une thématique, sites créés par une communauté etc...) les liens externes et réciproques renforcent le potentiel global de PR du groupe de sites, l'ensemble ayant tendance à augmenter le PR de l'ensemble des sites. Pour simplifier, le PR transmis du site A à B est éventuellement transmis de B à C, de C à D avant d'être transmis à A. L'effet positif de la collusion entre sites est bien connu, c'est pour cela que les fermes de liens sont efficaces, mais recherchées et éliminées par les moteurs car elles "faussent" l'hypothèse à la base du pagerank, c'est à dire une page importante a beaucoup de liens importants émanant de pages importantes. Ces points ont été étudiés de manière approfondie par quelques chercheurs, je tiens les références des articles à la disposition de ceux que ça intéresse. C'est faux, la fuite de pagerank n'est pas liée au PR des pages cibles. Il suffit de lire la "formule" du pagerank pour comprendre que le PR n'est pris en compte que dans un seul sens. Au passage, les pages ont un pagerank, pas les sites. Parler d'un site de pagerank 0/10 n'a pas de sens. En général, voire quasiment toujours, c'est l'inverse qui se produit ! Le lien retour diminue la fuite de pagerank, la compense, voire apporte du PR supplémentaire (un échange de liens avec une page PR 7 quand sa page n'a qu'un PR de 2, c'est du bonus). Sur le plan du pagerank, l'effet n'est pas sur votre site, mais sur le groupe de sites auquel il appartient... Il y'a d'autres effets négatifs, mais cela nous entrainerait trop loin. Il y'a donc un certain nombre de points à corriger dans ton article.
  23. Ayant l'habitude de jongler entre deux navigateurs (IE et Firefox) qui sont souvent ouverts en même temps quand j'écris de l'HTML, je génère deux visiteurs sur la plupart des sites qui mesurent les visiteurs par cookie. Si le site d'Altar comporte pas mal de gens comme moi, ou de connexions "collectives", ce résultat est normal. Toutes les personnes qui se connectent de mon entreprise (soit 120 personnes différentes sur 120 machines différentes) ne génèrent que 5 visiteurs détectés par IP, car seul 5 IP fixes différentes peuvent être détectées. Mais on génère bien 120 cookies différents (soit un rapport de 24 contre 1) Après, si on prend un cybercafé, deux utilisateurs qui se succèdent sur le même poste pourront être considéré comme le même visiteur. Bref, il faut vraiment prendre cette notion de VU avec des pincettes.
  24. A mon avis on trouvera une correlation entre pagerank et les liens choisis pour apparaître dans les sitelinks. Car la structure des liens interne au site est visiblement prise en compte, ET l'importance des liens entrants.
×
×
  • Créer...