Aller au contenu

Extraire le texte de certains sites


Sujets conseillés

Posté

Je cherche à faire des études "statistico-linguistiques" sur le texte de certains sites, sur un très grand nombre de pages. Des logiciels comme WinHTTrack permettent de faire une copie locale en HTML, mais ce qui m'interesserai serait un logiciel au fonctionnement équivalent, mais qui sauvegarderait la seule information textuelle, et non le code HTML, idéalement au format .txt. Un tel logiciel (gratuit ou open source) existe-t-il ?

Posté

Et si tu utilises WinHTTrack (ou un logiciel de ce type) pour récupérer les pages sur lesquelles tu appliques un script (php, perl, vbs) pour ne garder que le contenu (donc supprimer les balises) ?

Posté

En PHP, une fois que tu as le code complet à disposition, tu peux utiliser la fonction strip_tags, pour ne garder que le contenu textuel.

Un petit script assez léger peut se faire rapidement, qui ressortirait en txt les pages ramenées par WinHtTrack.

Posté

Cette fonction ne fait que virer le balisage, mais elle ne vire pas le texte par exemple contenu dans les attributs href, title ou alt ? Ce qui m'intéresse est le texte significatif, càd celui qu'on obtient à la main en faisant un copié collé de l'intégralité du contenu d'une page web dans notepad par exemple.

Posté

Dans un premier temps, tu gardes le contenu qui se trouve entre <body> et </body>.

Dans un second temps, tu appliques cette regex.

$vContenu = ereg_replace("<[^>]*>", "", $vContenu);

En php, ça permet le faire assez facilement (à compléter dans le cas ou tu as du javascript en plein milieu de la page).

Posté

Salut,

strip tag t'enlevera les balises html avec leurs attributs autrement dis il n'ya aura pas de href="... qui traine.

Cependant si le code html est incorrecte la fonction peut rogner le contenu désiré :(

Plus d'infos sur strip tags ici http://fr2.php.net/strip-tags

Veuillez vous connecter pour commenter

Vous pourrez laisser un commentaire après vous êtes connecté.



Connectez-vous maintenant
×
×
  • Créer...