Sebastien Posté 8 Février 2007 Posté 8 Février 2007 Je cherche à faire des études "statistico-linguistiques" sur le texte de certains sites, sur un très grand nombre de pages. Des logiciels comme WinHTTrack permettent de faire une copie locale en HTML, mais ce qui m'interesserai serait un logiciel au fonctionnement équivalent, mais qui sauvegarderait la seule information textuelle, et non le code HTML, idéalement au format .txt. Un tel logiciel (gratuit ou open source) existe-t-il ?
petit-ourson Posté 8 Février 2007 Posté 8 Février 2007 Et si tu utilises WinHTTrack (ou un logiciel de ce type) pour récupérer les pages sur lesquelles tu appliques un script (php, perl, vbs) pour ne garder que le contenu (donc supprimer les balises) ?
captain_torche Posté 8 Février 2007 Posté 8 Février 2007 En PHP, une fois que tu as le code complet à disposition, tu peux utiliser la fonction strip_tags, pour ne garder que le contenu textuel. Un petit script assez léger peut se faire rapidement, qui ressortirait en txt les pages ramenées par WinHtTrack.
Sebastien Posté 8 Février 2007 Auteur Posté 8 Février 2007 Cette fonction ne fait que virer le balisage, mais elle ne vire pas le texte par exemple contenu dans les attributs href, title ou alt ? Ce qui m'intéresse est le texte significatif, càd celui qu'on obtient à la main en faisant un copié collé de l'intégralité du contenu d'une page web dans notepad par exemple.
petit-ourson Posté 8 Février 2007 Posté 8 Février 2007 Dans un premier temps, tu gardes le contenu qui se trouve entre <body> et </body>. Dans un second temps, tu appliques cette regex. $vContenu = ereg_replace("<[^>]*>", "", $vContenu); En php, ça permet le faire assez facilement (à compléter dans le cas ou tu as du javascript en plein milieu de la page).
Kent Posté 8 Février 2007 Posté 8 Février 2007 Salut, strip tag t'enlevera les balises html avec leurs attributs autrement dis il n'ya aura pas de href="... qui traine. Cependant si le code html est incorrecte la fonction peut rogner le contenu désiré Plus d'infos sur strip tags ici http://fr2.php.net/strip-tags
captain_torche Posté 8 Février 2007 Posté 8 Février 2007 Sisi, strip_tags supprime les attributs alt, title, etc. C'est bien ce que tu veux obtenir, n'est-ce pas ?
Sebastien Posté 8 Février 2007 Auteur Posté 8 Février 2007 Merci de votre aide, étant plus doué pour la recherche que la prog j'ai découvert ce petit programme qui remplit très bien sa fonction : http://www.nirsoft.net/utils/htmlastext.html (Faut vraiment que je m'améliore coté prog... je vais essayer d'apprendre les expressions régulières en 2007 tiens)
Leonick Posté 10 Février 2007 Posté 10 Février 2007 et comment cela se passe avec des pages mal codées, genre <i><td><a></td></i></a> ?
Sujets conseillés
Veuillez vous connecter pour commenter
Vous pourrez laisser un commentaire après vous êtes connecté.
Connectez-vous maintenant