Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 10/03/2014, à 11:49

Le Goss

[Résolu] bash ouverture copie et export d'une page web

Bonjour à tous,

J'ai déjà essayé avec wget et httrack sans succès...
Alors voilà:
Je cherche à copier vers un fichier texte le contenu de pages web, pas le code html, mais ce qui est affiché à l'écran.
Ce qui nécessite l'ouverture du navigateur (Firefox pour ce qui me concerne).
Ahhh! j'étais tombé sur une appli en ligne commande qui s'appelait du genre "machintool" ou "toolmachin" mais impossible d'y mettre la main dessus.

Merci pour le coup de main!
Cordialement

Dernière modification par Le Goss (Le 23/03/2014, à 18:10)


Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags

Hors ligne

#2 Le 10/03/2014, à 11:55

pingouinux

Re : [Résolu] bash ouverture copie et export d'une page web

Bonjour,
Peut-être html2text ?

Hors ligne

#3 Le 10/03/2014, à 12:16

credenhill

Re : [Résolu] bash ouverture copie et export d'une page web

hello
essayer w3m -dump URL

Hors ligne

#4 Le 10/03/2014, à 14:15

Le Goss

Re : [Résolu] bash ouverture copie et export d'une page web

Merci pour vos suggestions!

html2text essayé mais nécessite de sauvegarder (manuellement) chaque page html avant traitement, non? ou bien ai-je manqué quelque chose...
Je cherche à ce que le script bash fasse lui-même tout le boulot à ma place.
existe-t-il une commande pour que w3m exporte la page affichée vers en fichier texte auquel on donnerait pour nom l'url de la page?


Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags

Hors ligne

#5 Le 10/03/2014, à 16:23

credenhill

Re : [Résolu] bash ouverture copie et export d'une page web

essayer

t=$(w3m -dump_source URL  | tee /tmp/xxx  | awk -F '[<>]' '/<title>/ {print $3; exit}')
w3m -dump -T text/html /tmp/xxx > "$t"

Hors ligne

#6 Le 10/03/2014, à 18:13

serged

Re : [Résolu] bash ouverture copie et export d'une page web

Le Goss a écrit :

Merci pour vos suggestions!

html2text essayé mais nécessite de sauvegarder (manuellement) chaque page html avant traitement, non? ou bien ai-je manqué quelque chose...
Je cherche à ce que le script bash fasse lui-même tout le boulot à ma place.
existe-t-il une commande pour que w3m exporte la page affichée vers en fichier texte auquel on donnerait pour nom l'url de la page?

Tu peux très bien faire :

wget -O - http://monurl | html2text

LinuxMint Vera Cinnamon et d'autres machines en MATE, XFCE... 20.x , 21.x ou 19.x
Tour : Asus F2A55 / AMD A8-5600K APU 3,6GHz / RAM 16Go / Nvidia GeForce GT610 / LM21.1 Cinnamon
Portable : LDLC Mercure MH : Celeron N3450 /RAM 4Go / Intel HD graphics 500 i915 / biboot Win 10 (sur SSD) - LM21.1 MATE (sur HDD)

Hors ligne

#7 Le 11/03/2014, à 12:18

Le Goss

Re : [Résolu] bash ouverture copie et export d'une page web

@credenhill: je n'ai pas tout compris à ta commande. Je la garde sous le coude pour l'étudier plus tard.
Je suis partie sur la base de ta première proposition w3m -dump URL

w3m -dump http://blabla > fichier

Fonctionne aussi avec:

lynx -dump http://blabla > fichier
elinks -dump http://blabla > fichier
links -dump http://blabla > fichier

Il ne me reste plus qu'à bidouiller le script pour que le nom de mon fichier sauvegardé soit l'url...


Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags

Hors ligne

#8 Le 11/03/2014, à 13:13

credenhill

Re : [Résolu] bash ouverture copie et export d'une page web

la première ligne copie la page dans un fichier HTML et extrait la balise <title></title> pour avoir le nom du fichier dans lequel la 2ème ligne le convertit en texte

Hors ligne

#9 Le 23/03/2014, à 18:03

Le Goss

Re : [Résolu] bash ouverture copie et export d'une page web

credenhill a écrit :

la première ligne copie la page dans un fichier HTML et extrait la balise <title></title> pour avoir le nom du fichier dans lequel la 2ème ligne le convertit en texte

Merci pour l'info!


Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags

Hors ligne

#10 Le 23/03/2014, à 18:05

Le Goss

Re : [Résolu] bash ouverture copie et export d'une page web

Le Goss a écrit :

Ahhh! j'étais tombé sur une appli en ligne commande qui s'appelait du genre "machintool" ou "toolmachin"

xdotool cool
Retrouvé par hasard... lol


Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags

Hors ligne