Aller au contenu

Cariboo

Membre+
  • Compteur de contenus

    3 376
  • Inscrit(e) le

  • Dernière visite

Tout ce qui a été posté par Cariboo

  1. Cariboo

    Dictionnaire

    Il existe deux sources de fichiers de dictionnaires de ce type : - commerciaux : complets mais payants. A la portée d'une grosse boîte, pas d'un petit webmaster (ce sont des thesaurus multilingues au mieux) - universitaires : inaccessibles pour le simple particulier. Gratuits, sauf pour une utilisation non universitaire. Ceci dit, j'en ai trouvé à gauche et à droite sur le net (Google est mon ami), mais je ne les ai jamais utilisés, car ils posent des problèmes d'exploitation (droit d'auteur). Ce qui se rapproche le plus de ce que tu cherches est un projet européen, issus du WordNet américain, baptisé EuroWordnet. Il s'agit d'une ontologie multilingue... La licence coûte 11000 euros
  2. Il existe des "mods" permettant de connecter un site en php à phpbb... Il n'y en a aucun qui m'ait convaincu... Pour IPB, il y'a plusieurs solutions assez sympa... D'une part, il y'a "converse" qui est une architecture définie dès la version 1 d'Invision, et qui permet de synchroniser diverses applications avec le système d'inscription d'IPB. Ensuite il y'a IPBSDK, une bibliothèque de fonctions complète qui permet d'intégrer totalement dans une page php toutes les étapes d'inscription au forum, ou de créer des scripts de synchronisations. Enfin, certains ont créé des portails complets Open Source autour d' Invision Power Board. A ma connaissance, il est plus sage, et plus facile, d'intégrer le système d'inscription d'un forum à son site, que de faire l'inverse... Cela permet d'éviter de modifier les scripts du forum, ce qui rend les mises à jour indispensables (pour PhpBB, on pourrait parler de mises à jour VITALES) problématiques.
  3. Après avoir formé une dizaine de stagiaires au XML, je me suis rendu compte que ce "langage" (en fait un meta langage) était à la fois simple, effectivement, mais difficile d'accès si on l'attaque par le mauvais bout... Et le mauvais bout, ce sont la plupart des docs et bouquins sur le sujet, qui insistent beaucoup sur les "concepts" sous-jacents, jargonnent énormément, parlent de toutes les variantes du XML et noient le novice sous une masse d'informations qu'il ne sait pas organiser... Je me suis donc aperçu assez vite que la meilleure façon de comprendre le XML, c'était de l'utiliser pour l'une ou plusieurs de ses applications... Les deux applications les plus courantes sont : - la création de flux de données entre serveurs - la séparation "contenu / contenant" Mais il y'en a bien d'autres (on commence à voir des moteurs de bases de données complets qui utilisent un fichier XML comme format de stockage par exemple) Pour la gestion des flux : on a souvent besoin de faire communiquer un serveur web A, programmé en ASP, avec un serveur B, programmé en PHP. Le serveur en PHP peut avoir besoin de récupérer un contenu émanant du serveur A, régulièrement mis à jour, pour le présenter avec le format et la présentation défini pour A. Sans le XML, cela passe par des solutions lourdes et malcommodes : génération de HTML en javascript, mise à jour de fichiers plats par ftp etc... Avec le XML, c'est simple : le serveur A contient un fichier qui génère à la demande de B un fichier XML, celui est "parsé" (analysé et lu) par A et affiché. La séparation contenu / contenant : si l'on veut créer plusieurs versions de son site (une version "normale", une version "light", une version pour le partenaire A, une version WAP, une version Imode...) etc..., la solution sans le XML passe par la création d'autant de programmes différents que de versions. Avec le XML, on peut stocker les données d'un côté dans le fichier XML, et utiliser plusieurs "feuilles de style" XSLT pour générer autant de versions que nécessaires. La meilleure façon de comprendre, c'est d'avoir besoin du langage pour l'une de ces applications, et de commencer à le pratiquer... Après cela, on peut aborder les concepts fumeux et abstraits dont parlent les documentations plus armés, et découvrir toutes les possibilités et la richesse du XML.
  4. Je vais réfléchir... Laisse moi quelques jours
  5. Très très intéressant... Sauf que : s'agit-il juste d'une étude statistique sur la longueur des pages placées dans les premières positions dans les résultats de google ? Si c'est le cas, cela va être dur de déterminer le critère à l'origine du phénomène... Corrélation ne veut pas forcément dire relation de cause à effet...
  6. Un moteur comme google ne tient pas compte de la balise meta keywords... Nullette cherche ailleurs, l'explication des "scores" de ton concurrents n'est certainement pas dans les balises meta, en commentaires ou non.
  7. Adifco, je ne vais sûrement pas reprocher à quelqu'un de répéter ce que l'on trouve dans les meilleurs ouvrages sur le référencement disponibles à l'heure actuelle. Donc, attention, ce que j'ai dit, c'est que je trouve ce ratio absurde. Je ne trouve pas absurdes les gens qui l'utilisent : vu la popularité de l'outil, il est clair qu'il n'y a pas que des imbéciles qui l'utilisent. Sauf qu'on va peut-être faire l'effort un jour de dépasser les mesures empiriques pour essayer de comprendre comment cela marche vraiment ? En général, ce que l'on ne voit pas, c'est que ce n'est pas la "densité" qui est importante, mais juste le nombre de fois où l'on trouve le mot dans la page... La longueur de la page n'ayant aucune importance... Donc cela signifie que le keyword stuffing fonctionne, mais juste parce que l'on a mis plus de fois le mot clé que le voisin, et pas à cause du ratio "nb de mots/nb de mots total de la page". Dans les calculs de similarité entre la requête et une page donnée, ou de probabilité de pertinence d'une page par rapport à une requête, on ne tient compte que du nombre d'occurrences du mot... (suffit d'éplucher les algos pour s'en apercevoir). En fait, certains moteurs utilisent bien le critère de densité : mais ce ne sont pas les plus pertinents. En effet, utiliser ce critère signifie que l'on juge plus pertinent sur la requête "bibliothèque" un texte de trois pages qui contient dix fois le mot bibliothèque, qu'un texte de dix pages qui contient aussi le mot bibliothèque dix fois... Si Google utilisait ce critère, on pourrait vérifier que les textes courts seraient favorisés sur Google. On ne dirait pas. En fait, l'intérêt pour améliorer la pertinence des réponses, serait de mesurer une densité "locale" pas "globale". C'est un fait, les raisonnements de linguistique statistique restent vrais tant que l'on raisonne sur des documents ou des textes d'une longueur minimale. Certains algos (LCA) fonctionnent en utilisant des "fenêtres" virtuelles de x mots (200/300 en général) que l'on déplace dans le texte... Dans ce cas, la densité change tous les 200 mots ! Quand à Yooda, je pense qu'ils répondent à la demande, tout simplement. Si tout le monde leur demande une mesure de densité, ils fournissent un outil de mesure de densité. Mais ce qui serait bien, c'est qu'ils fournissent aussi le pourcentage de présence d'un mot dans le corpus de google, parce que dans les pages web, il y'a des mots fréquents (comme "web") et des mots rares (comme "ornithorynque"). Donc avec trois fois le mot ornithorynque dans la page, vous faites un carton sur le critère de similarité, alors qu'avec trois fois web, quelle que soit la longueur de la page, vous aurez un peu plus de mal...
  8. Ca c'était une précaution oratoire... En réalité, je n'en connais aucun ! Indexer les commentaires, cela va à l'encontre de toute recherche de pertinence dans un moteur. Lorsque les commentaires apparaissent dans les snippets du moteur, c'est toujours à cause d'erreur de codage html.
  9. Je confirme que les commentaires ne sont pas indexés par la plupart des moteurs, msn et yahoo y compris. Donc on ne peut pas "spamdexer" avec des commentaires.
  10. Y'a un truc ... En fait, en principe, les jeux organisés par minitel, audiotel, etc... sont par nature des loteries payantes, donc interdites... D'ailleurs, il y'a eu des condamnations au début. Sauf que, la parade juridique a été trouvée : lis bien les mentions en caractère microscopiques dans les réglements déposés chez l'huissier, si tu veux que l'on te rembourse ta communication téléphonique, c'est possible, suffit de demander... Avec cette clause, il s'agit bien de loteries gratuites, autorisées si l'on respecte certaines contraintes formelles ... Comment c'est tiré par les cheveux ? Je me demande quand même ce que cela vaut réellement, car il est de notoriété publique que les millions de participants à ces jeux demandent le remboursement... Je me demande même quelle proportion réelle d'entre eux sait qu'ils peuvent se faire rembourser... En fait, l'histoire du palier A est imposée par la commission ad hoc de l'ART qui a trouvé que les chaînes poussaient un peu loin le pompon
  11. Pour info cette technique je la connais et je m'en sers pour réparer les "cagades" de mes utilisateurs dans le parc informatique de ma boîte... Mais ce truc n'est "légal" que dans ce genre de contexte... Il est hors de question que l'on contribue à répandre cette technique, qui permet quand même de "hacker" en deux minutes chrono n'importe quel machine sous NT, 2000, ou XP... C'est un choix, la politique de ce forum n'est pas de diffuser ce genre d'informations...
  12. Je crois que pas mal vont être surtout encouragés à changer de forums (IPB, vBulletin, c'est peut-être pas si cher finalement) et... d'hébergeur.
  13. Personnellement, j'ai choisi d'installer spamassassin sur mon dédié (avec l'aide de quelqu'un bien de bien connu sur ce forum ) Le seul inconvénient de spamassassin, surtout combiné avec un antivirus bien pointu comme kaspersky, c'est que cela consomme beaucoup de ressources... Il faut donc bien tout paramétrer pour éviter de faire "exploser" le serveur, et ne pas trop espérer faire tourner grand chose de très consommateur de ressources à côté. En fait avec spamassassin combiné avec les fonctionnalités antispam de Thunderbird, cela donne des résultats tout à fait corrects... Mais si ton objectif est "d'économiser des ressources" c'est manqué ! Cela ralentit le serveur de mail. Par contre cela économise de la bande passante... Et du temps en ouverture de mails inutiles.
  14. 1. En utilisant (erreur fatale) pour une fois IE et pas Firefox (grr...) 2. En ayant une version d'IE non correctement mise à jour pour le HBO Hijack pour une raison inconnue (moralité : vérifiez que vos mises à jour se sont bien effectuées) 3. En allant sur le site qu'il ne fallait pas (une page perso, qui ouvre un popup pour un site adulte, avec un contenu qui pointe vers une page qui n'existe plus, renvoi du 404 vers le site piégé...)
  15. La vache ! (je vous préviens, ce truc m'a rendu vulgaire) J'ai trouvé le spyware le pire qui ait jamais été créé. Cette sal****ie est une version particulièrement perverse Cette horreur s'appelle HSA, alias Home Search Assistant, alias Shop At Home... Six heures pour en venir à bout !! Un record. La où Cool Web Search ne me prenait que 2'30'' à éradiquer... Et encore, je n'ai pas totalement fini d'en éliminer les miettes laissées ça et là/ Cette variante est furtive ! Les process changent de nom à chaque redémarrage... Si on regarde le registre avec Hijack This, ce que l'on voit ne correspond déjà plus à ce qui a été lancé. Si on lance Ad Aware, ce truc éteint la machine avant la fin du processus de scan... Grrrr... Spybot ne sait pas l'éradiquer complétement. En plus, ce truc télécharge diverses bestioles, histoire d'amuser la galerie : une variante camouflée de CWS, une barre d'outils, une connexion alternative... J'en oublie ! Aïe, aïe... Je vous passe la procédure d'éradication, il y'en a pour trois heures le temps de passer par toutes les étapes (heureusement que d'autres ont donné la solution, il y'a seize groupe de manips différentes, outre l'éradication des spywares cousins que ce truc installe). Si je tenais le tordu qui a pondu cette ***ie, je l'empalerais direct sur mon sapin de noël...
  16. Cela fera l'objet d'un article complet que je ne devrais pas tarder à publier, mais tu as déjà pas mal d'infos ici : La sémantique appliquée au référencement et aux moteurs de recherche
  17. C'est la fréquence dans le document, dans sa définition la plus basique : le nombre de fois où le terme apparait dans la page. On ne tient donc pas compte de la longueur du document (qui elle a une influence indirecte dans la mesure de similarité).
  18. Je suis désolé de casser l'ambiance, mais raisonner avec un taux de mots clés valable pour toutes les requêtes est une absurdité... Ce n'est pas parce que tout le monde raisonne sur la densité de mots clés depuis des années qu'il faut continuer à utiliser ce concept qui n'a aucune utilité pour un référencement efficace... Les moteurs n'utilisent pas la densité de mot clé sur une page (nb d'occurrences / nb de mots dans la page), mais en règle générale une mesure basée sur le rapport entre le nb d'occurences du mot dans le document et la fréquence des documents contenant ce mot dans le corpus (nb de pages contenant ce mot dans l'index). La mesure la plus classique est tf * idf : Poids du terme = fréquence du terme x Log ( taille de l'index / fréquence des documents contenant le terme) Cela signifie que cette mesure change pour chaque mot. Et que la longueur de la page n'est pas prise en compte. Il y'a de très bonnes raisons de linguistique statistique pour cela. Ensuite, pour être bien classé, il faut que la "distance" entre la requête tapée, et la page, soit la plus réduite possible... Cela se fait avec une mesure de similarité... Donc, pour améliorer le référencement d' une page donnée, il ne faut surtout pas raisonner sur la densité de mots clés, mais sur les facteurs qui développent la similarité entre une page donnée et la requête ciblée... C'est donc plus subtil : la bonne méthode est d'analyser les pages sortant en tête des résultats sur une requête donnée, notamment la fréquence des termes correspondant aux requêtes visées... Cela signifie aussi que la densité la plus appropriée pour une page est le plus souvent la densité apportée par une page naturelle, et que le "keyword stuffing" mal fait peut conduire à une dégradation du référencement.
  19. Tiens j'ai cela aussi sur plusieurs de mes serveurs OVH, j'ai l'explication maintenant... Tu as supprimé quel module au juste ? Ovhm, tout bêtement ?
  20. Attention, si tu crées un squelette personalisé, dans article-xx.html, xx n'est pas un numéro d'article mais de rubrique. Pour que cela marche, il faut donc que tu places l'article 1 dans une nouvelle rubrique (au hasard la 22), et que tu créées un squelette article-22.html et pas article-1.html
  21. Apparemment, tu as fait, en fait, tout ce qu'il fallait faire... Les forums IPB, avec les skins d'origine, ou des skins légèrement modifiés, sont "hautement référençables". Il suffit donc de porter attention aux balises méta et c'est tout. Ensuite, il faut bosser pour avoir des backlinks...
  22. Après le "bac à sable", le "bac fermé", puis le "bac à liens"... Mmmmf... On va avoir droit à tous les bacs et toutes les "box". Pourquoi pas l'effet "jukebox" ? Le truc est toujours le même : on donne un nom à ce que l'on ne comprend pas... Il y'a des spécialistes du référencement qui me rappellent les médecins de Molière... "Votre site est mal référencé ? Et bien c'est normal, c'est une histoire d'humeurs et d'effet sandbox, il va falloir une saignée". J'ai la dent dure, mais c'est quand même un peu ça...
  23. Je ne suis toujours pas convaincu que cet effet existe... Je n'ai jamais vu quelqu'un arriver à démontrer autre chose que "en règle générale, les sites récents sont mal référencés" mais "qu'il y'a des exceptions". Appeler effet sandbox un truc que l'on peut expliquer simplement par des phénomènes que connaissent tous ceux qui font du référencement depuis des années, c'est du même niveau que la "mémoire de l'eau". Une jolie expression, qui ne recouvre rien de scientifique. Un bon coup de rasoir d'Occkham, et plus d'effet sandbox.
  24. Curieux... Tu es sûr de ne pas avoir attrapé un spyware ? Cela ressemble à un pb de reconnaissance d'extension sur ta machine (ton explorateur ne sait pas que phtml, c'est du html) Je penche pour un problème de gestion des informations MIME par ton navigateur (phtml n'est pas une extension enregistrée en général)
×
×
  • Créer...