Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 11/10/2008, à 09:38

PatriceGendreau

Conversion HTML en TEXTE

J'ai de grandes quantités de fichiers html (ne comportant que du texte)
Je voudrais les convertir "en batch" en format txt pour les manipuler ensuite dans d'autres programmes
n'acceptant pas le html en entrée

Comment faire ?

Merci


Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/

Hors ligne

#2 Le 11/10/2008, à 10:03

geenux

Re : Conversion HTML en TEXTE

À part récupérer le texte entre les parties <body>et </body> et enlever toutes les balises html, je ne vois pas. Il doit sans doute y avoir des logiciels pour le faire, sinon un petit script bash ne doit pas être compliqué à réaliser.

Hors ligne

#3 Le 11/10/2008, à 10:08

PatriceGendreau

Re : Conversion HTML en TEXTE

j'ai trouvé un peu :
installer lynx
(navigateur en mode texte)
utiliser l'option "-dump"

exemple
lynx -dump truc.html > truc.txt

cela marche pour un fichier isolé
mais j'ai quelques centaines de fichiers à convertir

une idée pour passer des arguments dans le genre
lynx -dump *.html > *.txt
(mais cela ne marche pas....)


Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/

Hors ligne

#4 Le 11/10/2008, à 10:11

Hermes le Messager

Re : Conversion HTML en TEXTE

PatriceGendreau a écrit :

J'ai de grandes quantités de fichiers html (ne comportant que du texte)
Je voudrais les convertir "en batch" en format txt pour les manipuler ensuite dans d'autres programmes
n'acceptant pas le html en entrée

Comment faire ?

Merci

C'est possible en faisant un script shell, mais sans aucune notion de programmation, c'est mort pour toi.

Hors ligne

#5 Le 11/10/2008, à 10:14

PatriceGendreau

Re : Conversion HTML en TEXTE

ouais .....

va falloir que je m'y mette


Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/

Hors ligne

#6 Le 11/10/2008, à 10:35

geenux

Re : Conversion HTML en TEXTE

Dans ce cas, tu fait simplement une boucle :

#!/bin/bash
for i in *; do
	lynx -dump "$i" > "$i.txt";
done

Parcourt tout les fichiers du dossier courant et appelle lynx pour convertir.

Hors ligne

#7 Le 11/10/2008, à 10:47

PatriceGendreau

Re : Conversion HTML en TEXTE

Merci beaucoup

euh une question de newbie en bash sur linux

comment on "sauve" ce fichier... quelle extension ?

Mais merci encore
je vais tester tout cela


Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/

Hors ligne

#8 Le 11/10/2008, à 12:26

geenux

Re : Conversion HTML en TEXTE

Tu l'enregistre normalement à partir d'un éditeur de texte (gedit) sans extension ou avec l'extension .sh
Ensuite, tu fait

chmod +x nom_du_script

Et pour le lancer tu le met dans le dossier ou tu as tes pages html et tu fait

./nom_du_script

Si ça marche je le modifierai un peu pour qu'il soit plus pratique à utiliser.

Hors ligne