#1 Le 10/03/2014, à 11:49
- Le Goss
[Résolu] bash ouverture copie et export d'une page web
Bonjour à tous,
J'ai déjà essayé avec wget et httrack sans succès...
Alors voilà:
Je cherche à copier vers un fichier texte le contenu de pages web, pas le code html, mais ce qui est affiché à l'écran.
Ce qui nécessite l'ouverture du navigateur (Firefox pour ce qui me concerne).
Ahhh! j'étais tombé sur une appli en ligne commande qui s'appelait du genre "machintool" ou "toolmachin" mais impossible d'y mettre la main dessus.
Merci pour le coup de main!
Cordialement
Dernière modification par Le Goss (Le 23/03/2014, à 18:10)
Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags
Hors ligne
#2 Le 10/03/2014, à 11:55
- pingouinux
Re : [Résolu] bash ouverture copie et export d'une page web
Bonjour,
Peut-être html2text ?
Hors ligne
#3 Le 10/03/2014, à 12:16
- credenhill
Re : [Résolu] bash ouverture copie et export d'une page web
hello
essayer w3m -dump URL
Hors ligne
#4 Le 10/03/2014, à 14:15
- Le Goss
Re : [Résolu] bash ouverture copie et export d'une page web
Merci pour vos suggestions!
html2text essayé mais nécessite de sauvegarder (manuellement) chaque page html avant traitement, non? ou bien ai-je manqué quelque chose...
Je cherche à ce que le script bash fasse lui-même tout le boulot à ma place.
existe-t-il une commande pour que w3m exporte la page affichée vers en fichier texte auquel on donnerait pour nom l'url de la page?
Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags
Hors ligne
#5 Le 10/03/2014, à 16:23
- credenhill
Re : [Résolu] bash ouverture copie et export d'une page web
essayer
t=$(w3m -dump_source URL | tee /tmp/xxx | awk -F '[<>]' '/<title>/ {print $3; exit}')
w3m -dump -T text/html /tmp/xxx > "$t"
Hors ligne
#6 Le 10/03/2014, à 18:13
- serged
Re : [Résolu] bash ouverture copie et export d'une page web
Merci pour vos suggestions!
html2text essayé mais nécessite de sauvegarder (manuellement) chaque page html avant traitement, non? ou bien ai-je manqué quelque chose...
Je cherche à ce que le script bash fasse lui-même tout le boulot à ma place.
existe-t-il une commande pour que w3m exporte la page affichée vers en fichier texte auquel on donnerait pour nom l'url de la page?
Tu peux très bien faire :
wget -O - http://monurl | html2text
LinuxMint Vera Cinnamon et d'autres machines en MATE, XFCE... 20.x , 21.x ou 19.x
Tour : Asus F2A55 / AMD A8-5600K APU 3,6GHz / RAM 16Go / Nvidia GeForce GT610 / LM21.1 Cinnamon
Portable : LDLC Mercure MH : Celeron N3450 /RAM 4Go / Intel HD graphics 500 i915 / biboot Win 10 (sur SSD) - LM21.1 MATE (sur HDD)
Hors ligne
#7 Le 11/03/2014, à 12:18
- Le Goss
Re : [Résolu] bash ouverture copie et export d'une page web
@credenhill: je n'ai pas tout compris à ta commande. Je la garde sous le coude pour l'étudier plus tard.
Je suis partie sur la base de ta première proposition w3m -dump URL
w3m -dump http://blabla > fichier
Fonctionne aussi avec:
lynx -dump http://blabla > fichier
elinks -dump http://blabla > fichier
links -dump http://blabla > fichier
Il ne me reste plus qu'à bidouiller le script pour que le nom de mon fichier sauvegardé soit l'url...
Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags
Hors ligne
#8 Le 11/03/2014, à 13:13
- credenhill
Re : [Résolu] bash ouverture copie et export d'une page web
la première ligne copie la page dans un fichier HTML et extrait la balise <title></title> pour avoir le nom du fichier dans lequel la 2ème ligne le convertit en texte
Hors ligne
#9 Le 23/03/2014, à 18:03
- Le Goss
Re : [Résolu] bash ouverture copie et export d'une page web
la première ligne copie la page dans un fichier HTML et extrait la balise <title></title> pour avoir le nom du fichier dans lequel la 2ème ligne le convertit en texte
Merci pour l'info!
Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags
Hors ligne
#10 Le 23/03/2014, à 18:05
- Le Goss
Re : [Résolu] bash ouverture copie et export d'une page web
Ahhh! j'étais tombé sur une appli en ligne commande qui s'appelait du genre "machintool" ou "toolmachin"
xdotool
Retrouvé par hasard...
Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags
Hors ligne