Mingain Posté 26 Octobre 2007 Posté 26 Octobre 2007 Bonjour, Je suis à la recherche d'une liste de mot insignificatif en terme de référencement. C'est-à-dire qu'ils sont tellement communs qu'ils n'apportent rien de plus dans le référecement d'une page. Pour l'exemple, voici une liste de mots : les;des;est;mais;aussi;que;peut;sur;vous;aux;sont;etes;êtes;pas;dans;une;depuis;un;durant;qui;quoi;quand;comment;tout;plus;pour;avec;oui;non;ouai;celui;dire;ont ; déjà;moi;petit;par;entre;partir;ses;toute;tous;tout;toutes;long;pouvoir;pourrez; d eux;un;trois;€nos;notre;mon;requis;retour;petite;autre;autres;façon;son;il;ils;je;tu; votre;vos;sa;son Bien sur elle fait bien rire ! Je suis donc à la recherche d'une liste la plus complète possible. Quelqu'un a une idée ? une piste ? pour se procurer ça. A bientôt et merci d'avance !
karnabal Posté 26 Octobre 2007 Posté 26 Octobre 2007 Salut, Tu peux déjà commencer par une petite traduction pour te mettre en jambe english stopwords list.
monty Posté 26 Octobre 2007 Posté 26 Octobre 2007 (modifié) Fait une recherche sur "stop words" ou "stopwords", il doit y avoir des listes qui existent, comme celle ci (qui n'est guère plus complète que la tienne) http://www.ranks.nl/stopwords/french.html Modifié 26 Octobre 2007 par monty
Mingain Posté 27 Octobre 2007 Auteur Posté 27 Octobre 2007 ok merci ! Si je trouve du contenu digne de ce nom, je n'hésiterai pas à le partager ;-)
LebossTom Posté 27 Octobre 2007 Posté 27 Octobre 2007 (modifié) Hello, A la base les listes de stop words avaient pour vocation d'optimiser les performances lors de l'indexation les mots étaient ignorés. Aujourd'hui Google qui a des ressources machine quasi illimités n'ignore pas les stop words et au contraire s'en sert pour affiner ses résultats... L'utilisation des "stopwords" est un bon moyen de se positionner sur des requêtes long train non ? . Modifié 27 Octobre 2007 par LebossTom
Callisto Posté 27 Octobre 2007 Posté 27 Octobre 2007 Je connais une implémentation en php de l'algorithme stemmer de Paice/Husk qui utilise une stoplist et qui distribue entre autre un fichier en français de plus de 900 mots. Le site de l'implémentation : http://alx2002.free.fr/utilitarism/stemmer/stemmer_fr.html Il y a un lien sur la page du projet vers le fichier de la stoplist en français (stoplist_fr.inc.php) mais le lien semble être cassé. Il suffit par contre de télécharger le .zip de 80ko avec tous les fichiers, dont la stoplist : http://alx2002.free.fr/utilitarism/stemmer...HuskStemmer.zip
Mingain Posté 28 Octobre 2007 Auteur Posté 28 Octobre 2007 Thx ! Je créée une grosse liste avec tous ce que j'ai trouvé sur le Web là. Aprés je dédoublonne tout ça et je fais tourner ;-)
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant