Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 22/12/2013, à 12:57

Le Barde

Un logiciel libre qui fait le boulot de Pocket.com ?

Bonjour à tous,

Je suis à la recherche d'un logiciel/brique de base qui soit capable d'extraire le contenu (réel) d'une page web, et ensuite de le formater simplement. Je suppose que ça doit se faire à partir d'heuristiques...

J'ai découvert ce genre de service sur getpocket.com, et je souhaite un moyen de ne pas leur envoyer mes données précieuses !

Merci d'avance !

Hors ligne

#2 Le 23/12/2013, à 03:14

Elzen

Re : Un logiciel libre qui fait le boulot de Pocket.com ?

Hum. Je vais sans doute dire une bêtise, n'étant pas sûr de voir exactement ce que tu veux dire, mais la simple impression vers un fichier PDF n'irait-elle pas ?

Hors ligne

#3 Le 23/12/2013, à 07:19

J5012

Re : Un logiciel libre qui fait le boulot de Pocket.com ?

"enregistrer sous" du navigateur le fait aussi (et ca enregistre meme les css)
apres tu demandes a un logiciel comme calibre de le convertir en fichier epub ...

Hors ligne

#4 Le 23/12/2013, à 09:27

Le Barde

Re : Un logiciel libre qui fait le boulot de Pocket.com ?

Bonjour,

Non, s'il s'agit juste d'enregistrer du HTML, wget le fait très bien, et on peut même choisir de mettre les images ou non.

Là, ce qui m'intéresse, c'est avec du HTML de me débarrasser complètement des choses inutiles de la page (barres de menus, en-tête et bas de page, etc.).

Apparemment, il y aurait Boilerpipe qui serait bien, mais il faut tester. => http://stackoverflow.com/questions/7021 … -html-page

Hors ligne

#5 Le 23/12/2013, à 15:43

Elzen

Re : Un logiciel libre qui fait le boulot de Pocket.com ?

Ça paraît assez délicat de faire de tels traitements de façon générique, étant donné que ces structures sont normalement différentes d'un site à l'autre. Je ne sais pas comment fonctionne le site cité en référence, mais ce qu'il propose est assez ambitieux.

Après, quand le site est bien conçu, les éléments de ce genre sont censés être masqués pour l'impression. Sur le blog de Maître Eolas, par exemple, seuls les éléments utiles sont conservés quand on imprime (que ce soit sur papier ou dans un fichier PDF). Donc n'hésite pas à essayer ça ; et si le site qui t'intéresse ne fournit pas ce genre de fonctionnalités, comme c'est quelque chose qui est normalement géré par les CSS, regarde du côté des styles utilisateurs (stylish et compagnie) s'il n'y aurait pas quelque chose d'adapté.

Hors ligne