#1 Le 22/12/2013, à 12:57
- Le Barde
Un logiciel libre qui fait le boulot de Pocket.com ?
Bonjour à tous,
Je suis à la recherche d'un logiciel/brique de base qui soit capable d'extraire le contenu (réel) d'une page web, et ensuite de le formater simplement. Je suppose que ça doit se faire à partir d'heuristiques...
J'ai découvert ce genre de service sur getpocket.com, et je souhaite un moyen de ne pas leur envoyer mes données précieuses !
Merci d'avance !
Hors ligne
#2 Le 23/12/2013, à 03:14
- Elzen
Re : Un logiciel libre qui fait le boulot de Pocket.com ?
Hum. Je vais sans doute dire une bêtise, n'étant pas sûr de voir exactement ce que tu veux dire, mais la simple impression vers un fichier PDF n'irait-elle pas ?
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne
#3 Le 23/12/2013, à 07:19
- J5012
Re : Un logiciel libre qui fait le boulot de Pocket.com ?
"enregistrer sous" du navigateur le fait aussi (et ca enregistre meme les css)
apres tu demandes a un logiciel comme calibre de le convertir en fichier epub ...
Hors ligne
#4 Le 23/12/2013, à 09:27
- Le Barde
Re : Un logiciel libre qui fait le boulot de Pocket.com ?
Bonjour,
Non, s'il s'agit juste d'enregistrer du HTML, wget le fait très bien, et on peut même choisir de mettre les images ou non.
Là, ce qui m'intéresse, c'est avec du HTML de me débarrasser complètement des choses inutiles de la page (barres de menus, en-tête et bas de page, etc.).
Apparemment, il y aurait Boilerpipe qui serait bien, mais il faut tester. => http://stackoverflow.com/questions/7021 … -html-page
Hors ligne
#5 Le 23/12/2013, à 15:43
- Elzen
Re : Un logiciel libre qui fait le boulot de Pocket.com ?
Ça paraît assez délicat de faire de tels traitements de façon générique, étant donné que ces structures sont normalement différentes d'un site à l'autre. Je ne sais pas comment fonctionne le site cité en référence, mais ce qu'il propose est assez ambitieux.
Après, quand le site est bien conçu, les éléments de ce genre sont censés être masqués pour l'impression. Sur le blog de Maître Eolas, par exemple, seuls les éléments utiles sont conservés quand on imprime (que ce soit sur papier ou dans un fichier PDF). Donc n'hésite pas à essayer ça ; et si le site qui t'intéresse ne fournit pas ce genre de fonctionnalités, comme c'est quelque chose qui est normalement géré par les CSS, regarde du côté des styles utilisateurs (stylish et compagnie) s'il n'y aurait pas quelque chose d'adapté.
Elzen : polisson, polémiste, polymathe ! (ex-ArkSeth)
Un script pour améliorer quelques trucs du forum.
La joie de t'avoir connu surpasse la peine de t'avoir perdu…
timezone[blocklist]
Hors ligne