#1 Le 11/10/2008, à 09:38
- PatriceGendreau
Conversion HTML en TEXTE
J'ai de grandes quantités de fichiers html (ne comportant que du texte)
Je voudrais les convertir "en batch" en format txt pour les manipuler ensuite dans d'autres programmes
n'acceptant pas le html en entrée
Comment faire ?
Merci
Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/
Hors ligne
#2 Le 11/10/2008, à 10:03
- geenux
Re : Conversion HTML en TEXTE
À part récupérer le texte entre les parties <body>et </body> et enlever toutes les balises html, je ne vois pas. Il doit sans doute y avoir des logiciels pour le faire, sinon un petit script bash ne doit pas être compliqué à réaliser.
Hors ligne
#3 Le 11/10/2008, à 10:08
- PatriceGendreau
Re : Conversion HTML en TEXTE
j'ai trouvé un peu :
installer lynx
(navigateur en mode texte)
utiliser l'option "-dump"
exemple
lynx -dump truc.html > truc.txt
cela marche pour un fichier isolé
mais j'ai quelques centaines de fichiers à convertir
une idée pour passer des arguments dans le genre
lynx -dump *.html > *.txt
(mais cela ne marche pas....)
Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/
Hors ligne
#4 Le 11/10/2008, à 10:11
- Hermes le Messager
Re : Conversion HTML en TEXTE
J'ai de grandes quantités de fichiers html (ne comportant que du texte)
Je voudrais les convertir "en batch" en format txt pour les manipuler ensuite dans d'autres programmes
n'acceptant pas le html en entréeComment faire ?
Merci
C'est possible en faisant un script shell, mais sans aucune notion de programmation, c'est mort pour toi.
Hors ligne
#5 Le 11/10/2008, à 10:14
- PatriceGendreau
Re : Conversion HTML en TEXTE
ouais .....
va falloir que je m'y mette
Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/
Hors ligne
#6 Le 11/10/2008, à 10:35
- geenux
Re : Conversion HTML en TEXTE
Dans ce cas, tu fait simplement une boucle :
#!/bin/bash
for i in *; do
lynx -dump "$i" > "$i.txt";
done
Parcourt tout les fichiers du dossier courant et appelle lynx pour convertir.
Hors ligne
#7 Le 11/10/2008, à 10:47
- PatriceGendreau
Re : Conversion HTML en TEXTE
Merci beaucoup
euh une question de newbie en bash sur linux
comment on "sauve" ce fichier... quelle extension ?
Mais merci encore
je vais tester tout cela
Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/
Hors ligne
#8 Le 11/10/2008, à 12:26
- geenux
Re : Conversion HTML en TEXTE
Tu l'enregistre normalement à partir d'un éditeur de texte (gedit) sans extension ou avec l'extension .sh
Ensuite, tu fait
chmod +x nom_du_script
Et pour le lancer tu le met dans le dossier ou tu as tes pages html et tu fait
./nom_du_script
Si ça marche je le modifierai un peu pour qu'il soit plus pratique à utiliser.
Hors ligne