Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 13/03/2012, à 11:24

Isaric

Conversion PDF en HTML / poppler

Bonjour,

Peut-on installer poppler-0.19.0.tar.gz facilement ou
existe-il un dépôt avec une version plus récente de poppler-utils 0.16.7-2ubuntu2 (oneiric) . Pour 12.04 il doit être prévu poppler-utils_0.18.4-1ubuntu2_amd64.deb sad

Mes problèmes sont notés : Quality of convertion pdf to html

D'avance merci

Dernière modification par Isaric (Le 13/03/2012, à 11:25)


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#2 Le 13/03/2012, à 15:39

gl38

Re : Conversion PDF en HTML / poppler

Il n'y a qu'à faire
./configure
make
sudo make install

mais le résultat ne sera guère différent. Le pdf est rigide tandis que le html est souple pour s'adapter à l'écran du lecteur, ce qui est incompatible. Je ne vois pas bien l'intérêt de la manip !
Cordialement,
Guy

Hors ligne

#3 Le 13/03/2012, à 18:06

Isaric

Re : Conversion PDF en HTML / poppler

merci gl38
Lorsque je lance :

./configure

configure: error: Package requirements (fontconfig >= 2.0.0) were not met:
No package 'fontconfig' found

Consider adjusting the PKG_CONFIG_PATH environment variable if you
installed software in a non-standard prefix.

Alternatively, you may set the environment variables FONTCONFIG_CFLAGS
and FONTCONFIG_LIBS to avoid the need to call pkg-config.
See the pkg-config man page for more details.

Or j'ai fontconfig 2.8.0-3ubuntu2 dans synaptic

gl38 a écrit :

Je ne vois pas bien l'intérêt de la manip !

L'objectif est de mettre sur le net un travail de plusieurs milliers de pages fait à partir d'un logiciel de bureautique (.rsg) dont on peut pas récupérer simplement le texte et la mise en page sauf en PDF mais qui est une solution trop lourde et guère maniable.
Ce texte est encore mis a jour régulièrement et j'aimerai pouvoir le basculer sur le net les dernières mise à jours facilement

Dernière modification par Isaric (Le 13/03/2012, à 18:07)


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#4 Le 13/03/2012, à 18:42

gl38

Re : Conversion PDF en HTML / poppler

Comme il s'agit de compiler des programmes, il faut en général les paquets qui se terminent par dev.

Avec pdftk on peut extraire les pages d'un fichier pdf une par une, par exemple.
Ensuite on peut faire un index dans un fichier html. Ton exemple semble être un dictionnaire, j'ai fait des index pour le dictionnaire latin-français de Gaffiot et grec-français de Bailly en m'inspirant des dictionnaires sporadiques de Hitoshi Ogurisu (voir ici). Pour le latin les pages étaient des fichier tiff, pour le grec ce sont des pages pdf, on y accède ici, avec Adobe Reader pour lire le pdf, je trouve le système assez commode, puisque les pages appelées ouvrent un onglet dans la page d'Adobe Reader.
Cordialement,
Guy

Dernière modification par gl38 (Le 14/03/2012, à 08:38)

Hors ligne

#5 Le 14/03/2012, à 12:29

Isaric

Re : Conversion PDF en HTML / poppler

gl38 a écrit :

Comme il s'agit de compiler des programmes, il faut en général les paquets qui se terminent par dev.

Je n'ai pas de fontconfig-dev dans synaptic je n'ai trouvé que libfontconfig1-dev ? neutral

gl38 a écrit :

Avec pdftk on peut extraire les pages d'un fichier pdf une par une, par exemple.

Pour ma part j’utilise pdf-mod pour découper et rajouter des matadata sur les pdf  et pdfchain pour ajouter des pdf bout à bout.

J'utilise également la commande pour réduire le poids des pdf

Mais déjà ces 2 manipulations sont bien "lourdes" en énergie. neutral , mais découper page par page semble trop fastidieux.

Dernière modification par Isaric (Le 14/03/2012, à 12:56)


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#6 Le 14/03/2012, à 12:40

gl38

Re : Conversion PDF en HTML / poppler

Chez moi le libfontconfig1-dev était installé et la compilation s'est faite du premier coup.
Pour organiser un millier de pages, il faut faire des petits programmes...
Cordialement,
Guy

Hors ligne

#7 Le 14/03/2012, à 13:46

Isaric

Re : Conversion PDF en HTML / poppler

A)
J'ai installé libfontconfig1-dev et lancé la compilation qui semble passer.
Je note 

Warning: Using libjpeg is recommended
Warning: Using libopenjpeg is recommended

J'ai libjpeg62 d'installé mais pas  libjpeg-progs, cela suffit ?

Ensuite comment lancer la commande

pdftohtml -c *.pdf

avec le poopler  0.19 et non celui installé dans les  dépôts ?

Dernière modification par Isaric (Le 14/03/2012, à 14:29)


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#8 Le 14/03/2012, à 14:49

gl38

Re : Conversion PDF en HTML / poppler

Si tu as tapé
sudo make install

le nouveau pdftohtml devrait avoir pris la place de l'ancien dans /usr/bin
Tu peux vérifier en tapant
pdftohtml -h
qui te donne la version, 0.19.0 pour celle qui vient d'être compilée.
Pour libopenjpeg, je suppose qu'il faut le paquet avec un dev à la fin.
Cordialement,
Guy

Hors ligne

#9 Le 14/03/2012, à 16:13

Isaric

Re : Conversion PDF en HTML / poppler

pdftohtml -h
pdftohtml: error while loading shared libraries: libpoppler.so.20: cannot open shared object file: No such file or directory

"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#10 Le 14/03/2012, à 16:37

gl38

Re : Conversion PDF en HTML / poppler

Le libpoppler.so.20 est bien dans l'arborescence du nouveau poppler.
Je n'ai pas fait le "sudo make install" chez moi, mais si je vais dans le dossier poppler-0.19.0, puis dans le sous-dossier utils, et que je tape
./pdftohtml -h
ça marche.
Je me suis trompé, le nouveau pdfhtml devrait être dans /usr/local/bin et les librairies qui vont avec doivent être dans /usr/local/lib, Autant que je me souvienne, il faut que ce dossier soit dans la liste donnée par /etc/ld.so.conf, et pour mettre à jour la liste des librairies il faut lancer ldconfig (sans doute avec un sudo).
En fait la variable PATH met /usr/local/bin avant /usr/bin,
Cordialement,
Guy

Hors ligne

#11 Le 15/03/2012, à 10:02

Isaric

Re : Conversion PDF en HTML / poppler

Merci gl38, mais je ne suis plus hmm

Remarque :
J'ai également posté une question sur PDFTK :


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#12 Le 15/03/2012, à 19:18

Isaric

Re : Conversion PDF en HTML / poppler

Voilà ce que j'obtiens

~/poppler-0.19.0/utils$ ./pdftohtml -h
pdftohtml version 0.19.0
Copyright 2005-2011 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2011 Glyph & Cog, LLC

Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
...

que faut-il faire ensuite ?


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#13 Le 15/03/2012, à 19:28

gl38

Re : Conversion PDF en HTML / poppler

Là c'est utilisable et avec la version que tu voulais.
Il n'y a plus qu'à essayer sur ton fichier pdf pour voir si le html te plaît davantage, ce dont je doute un peu.

Pour l'histoire de libpoppler.so.20 qui n'était pas trouvée, si on redémarre l’ordinateur, ça lance le ldconfig, et si le /usr/local/lib est dans la liste des directories à parcourir, pdftohtml doit  fonctionner.
Si ce n'est pas le cas, il faut ajouter une ligne contenant
/usr/local/lib
au fichier /etc/ld.so.conf
Cordialement,
Guy

Hors ligne

#14 Le 16/03/2012, à 10:05

Isaric

Re : Conversion PDF en HTML / poppler

Merci gl38.

J'ai rajouté au fichier /etc/ld.so.conf une deuxième ligne. Il contient maintenant  :

include /etc/ld.so.conf.d/*.conf
/usr/local/lib

J'ai redémarré l'ordinateur et ensuite, j'ai lancé :

$ pdftohtml -c *.
pdfpdftohtml: error while loading shared libraries: libpoppler.so.20: cannot open shared object file: No such file or directory

"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#15 Le 16/03/2012, à 10:18

gl38

Re : Conversion PDF en HTML / poppler

Chez moi, j'ai bien un libpoppler.so dans /usr/local/lib
et après avoir tapé
sudo ldconfig
le nouveau pdftohtml marche.
Cordialement,
Guy

Hors ligne

#16 Le 16/03/2012, à 23:59

Dude

Re : Conversion PDF en HTML / poppler

Isaric a écrit :

L'objectif est de mettre sur le net un travail de plusieurs milliers de pages fait à partir d'un logiciel de bureautique (.rsg)

Je serais curieux de savoir quel est ce logiciel bureautique qui ne sait fabriquer qu'un format mystérieux.
Même FilExt ne connait pas cette extension.

Hors ligne

#17 Le 17/03/2012, à 09:24

Isaric

Re : Conversion PDF en HTML / poppler

Dude a écrit :

...curieux

Ready,Set,Go


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#18 Le 19/03/2012, à 17:58

Isaric

Re : Conversion PDF en HTML / poppler

Je n'avais pas fait cette commande roll :

gl38 a écrit :

sudo ldconfig

J'obtiens avec pdftohtml -c *.pdf

Page-1
Page-2
Page-3
Page-4
Page-5
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in

Et le résultat est effectivement pas mieux (pire...) sad


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#19 Le 19/03/2012, à 18:09

gl38

Re : Conversion PDF en HTML / poppler

Mais le site que tu indiques dit que le logiciel utilisé sait faire de l'export html, pourquoi ne pas l'utiliser ?
Cordialement,
Guy

Hors ligne

#20 Le 19/03/2012, à 19:07

Isaric

Re : Conversion PDF en HTML / poppler

gl38 a écrit :

Mais le site que tu indiques dit que le logiciel utilisé sait faire de l'export html, pourquoi ne pas l'utiliser ?
Cordialement,
Guy

Non, cela ne marche pas, ...  roll .


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#21 Le 19/03/2012, à 21:56

gl38

Re : Conversion PDF en HTML / poppler

D'après ce qui précède il doit manquer le paquet libopenjpeg-dev pour que ppdftohtml puisse traiter les images jpeg. Chez moi il n'y a pas de messages d'erreur.
Par contre le résultat n'est pas parfait : la première ligne de chaque article est mal écrite.
Cordialement,
Guy

Hors ligne

#22 Le 20/03/2012, à 08:42

Isaric

Re : Conversion PDF en HTML / poppler

Merci gl38, j'ai installé libopenjpeg-dev, qui n'y était pas et faut-il recommencer la compilation ?


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#23 Le 20/03/2012, à 09:09

gl38

Re : Conversion PDF en HTML / poppler

Je pense que oui :
./configure
make
sudo make install
Cordialement,
Guy

Hors ligne

#24 Le 20/03/2012, à 10:08

Isaric

Re : Conversion PDF en HTML / poppler

J'ai refait une compilation, mais le résultat est pas mieux neutral


"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence"  Matthieu Ricard.

Hors ligne

#25 Le 20/03/2012, à 10:20

gl38

Re : Conversion PDF en HTML / poppler

Si tu fais

./configure|grep jpeg

est-ce que tu n'as que des yes ?
Cordialement,
Guy

Hors ligne