Extraire le texte de certains sites

Sebastien · 8 Février 2007

Je cherche à faire des études "statistico-linguistiques" sur le texte de certains sites, sur un très grand nombre de pages. Des logiciels comme WinHTTrack permettent de faire une copie locale en HTML, mais ce qui m'interesserai serait un logiciel au fonctionnement équivalent, mais qui sauvegarderait la seule information textuelle, et non le code HTML, idéalement au format .txt. Un tel logiciel (gratuit ou open source) existe-t-il ?

petit-ourson · 8 Février 2007

Et si tu utilises WinHTTrack (ou un logiciel de ce type) pour récupérer les pages sur lesquelles tu appliques un script (php, perl, vbs) pour ne garder que le contenu (donc supprimer les balises) ?

Sebastien · 8 Février 2007

C'est que je ne sais pas du tout coder...

**captain_torche** · 8 Février 2007

En PHP, une fois que tu as le code complet à disposition, tu peux utiliser la fonction strip_tags, pour ne garder que le contenu textuel.

Un petit script assez léger peut se faire rapidement, qui ressortirait en txt les pages ramenées par WinHtTrack.

Sebastien · 8 Février 2007

Cette fonction ne fait que virer le balisage, mais elle ne vire pas le texte par exemple contenu dans les attributs href, title ou alt ? Ce qui m'intéresse est le texte significatif, càd celui qu'on obtient à la main en faisant un copié collé de l'intégralité du contenu d'une page web dans notepad par exemple.

petit-ourson · 8 Février 2007

Dans un premier temps, tu gardes le contenu qui se trouve entre <body> et </body>.

Dans un second temps, tu appliques cette regex.

$vContenu = ereg_replace("<[^>]*>", "", $vContenu);

En php, ça permet le faire assez facilement (à compléter dans le cas ou tu as du javascript en plein milieu de la page).

Kent · 8 Février 2007

Salut,

strip tag t'enlevera les balises html avec leurs attributs autrement dis il n'ya aura pas de href="... qui traine.

Cependant si le code html est incorrecte la fonction peut rogner le contenu désiré

Plus d'infos sur strip tags ici http://fr2.php.net/strip-tags

**captain_torche** · 8 Février 2007

Sisi, strip_tags supprime les attributs alt, title, etc.

C'est bien ce que tu veux obtenir, n'est-ce pas ?

Sebastien · 8 Février 2007

Merci de votre aide, étant plus doué pour la recherche que la prog j'ai découvert ce petit programme qui remplit très bien sa fonction : http://www.nirsoft.net/utils/htmlastext.html

(Faut vraiment que je m'améliore coté prog... je vais essayer d'apprendre les expressions régulières en 2007 tiens)

Leonick · 10 Février 2007

et comment cela se passe avec des pages mal codées, genre <i><td><a></td></i></a> ?

Connexion

Extraire le texte de certains sites

Sujets conseillés

Sebastien

petit-ourson

Sebastien

captain_torche

Sebastien

petit-ourson

Kent

captain_torche

Sebastien

Leonick

Veuillez vous connecter pour commenter

Parcourir

Activité