#1 Le 13/03/2012, à 11:24
- Isaric
Conversion PDF en HTML / poppler
Bonjour,
Peut-on installer poppler-0.19.0.tar.gz facilement ou
existe-il un dépôt avec une version plus récente de poppler-utils 0.16.7-2ubuntu2 (oneiric) . Pour 12.04 il doit être prévu poppler-utils_0.18.4-1ubuntu2_amd64.deb
Mes problèmes sont notés : Quality of convertion pdf to html
D'avance merci
Dernière modification par Isaric (Le 13/03/2012, à 11:25)
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#2 Le 13/03/2012, à 15:39
- gl38
Re : Conversion PDF en HTML / poppler
Il n'y a qu'à faire
./configure
make
sudo make install
mais le résultat ne sera guère différent. Le pdf est rigide tandis que le html est souple pour s'adapter à l'écran du lecteur, ce qui est incompatible. Je ne vois pas bien l'intérêt de la manip !
Cordialement,
Guy
Hors ligne
#3 Le 13/03/2012, à 18:06
- Isaric
Re : Conversion PDF en HTML / poppler
merci gl38
Lorsque je lance :
./configure
configure: error: Package requirements (fontconfig >= 2.0.0) were not met:
No package 'fontconfig' found
Consider adjusting the PKG_CONFIG_PATH environment variable if you
installed software in a non-standard prefix.
Alternatively, you may set the environment variables FONTCONFIG_CFLAGS
and FONTCONFIG_LIBS to avoid the need to call pkg-config.
See the pkg-config man page for more details.
Or j'ai fontconfig 2.8.0-3ubuntu2 dans synaptic
Je ne vois pas bien l'intérêt de la manip !
L'objectif est de mettre sur le net un travail de plusieurs milliers de pages fait à partir d'un logiciel de bureautique (.rsg) dont on peut pas récupérer simplement le texte et la mise en page sauf en PDF mais qui est une solution trop lourde et guère maniable.
Ce texte est encore mis a jour régulièrement et j'aimerai pouvoir le basculer sur le net les dernières mise à jours facilement
Dernière modification par Isaric (Le 13/03/2012, à 18:07)
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#4 Le 13/03/2012, à 18:42
- gl38
Re : Conversion PDF en HTML / poppler
Comme il s'agit de compiler des programmes, il faut en général les paquets qui se terminent par dev.
Avec pdftk on peut extraire les pages d'un fichier pdf une par une, par exemple.
Ensuite on peut faire un index dans un fichier html. Ton exemple semble être un dictionnaire, j'ai fait des index pour le dictionnaire latin-français de Gaffiot et grec-français de Bailly en m'inspirant des dictionnaires sporadiques de Hitoshi Ogurisu (voir ici). Pour le latin les pages étaient des fichier tiff, pour le grec ce sont des pages pdf, on y accède ici, avec Adobe Reader pour lire le pdf, je trouve le système assez commode, puisque les pages appelées ouvrent un onglet dans la page d'Adobe Reader.
Cordialement,
Guy
Dernière modification par gl38 (Le 14/03/2012, à 08:38)
Hors ligne
#5 Le 14/03/2012, à 12:29
- Isaric
Re : Conversion PDF en HTML / poppler
Comme il s'agit de compiler des programmes, il faut en général les paquets qui se terminent par dev.
Je n'ai pas de fontconfig-dev dans synaptic je n'ai trouvé que libfontconfig1-dev ?
Avec pdftk on peut extraire les pages d'un fichier pdf une par une, par exemple.
Pour ma part j’utilise pdf-mod pour découper et rajouter des matadata sur les pdf et pdfchain pour ajouter des pdf bout à bout.
J'utilise également la commande pour réduire le poids des pdf
Mais déjà ces 2 manipulations sont bien "lourdes" en énergie. , mais découper page par page semble trop fastidieux.
Dernière modification par Isaric (Le 14/03/2012, à 12:56)
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#6 Le 14/03/2012, à 12:40
- gl38
Re : Conversion PDF en HTML / poppler
Chez moi le libfontconfig1-dev était installé et la compilation s'est faite du premier coup.
Pour organiser un millier de pages, il faut faire des petits programmes...
Cordialement,
Guy
Hors ligne
#7 Le 14/03/2012, à 13:46
- Isaric
Re : Conversion PDF en HTML / poppler
A)
J'ai installé libfontconfig1-dev et lancé la compilation qui semble passer.
Je note
Warning: Using libjpeg is recommended
Warning: Using libopenjpeg is recommended
J'ai libjpeg62 d'installé mais pas libjpeg-progs, cela suffit ?
Ensuite comment lancer la commande
pdftohtml -c *.pdf
avec le poopler 0.19 et non celui installé dans les dépôts ?
Dernière modification par Isaric (Le 14/03/2012, à 14:29)
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#8 Le 14/03/2012, à 14:49
- gl38
Re : Conversion PDF en HTML / poppler
Si tu as tapé
sudo make install
le nouveau pdftohtml devrait avoir pris la place de l'ancien dans /usr/bin
Tu peux vérifier en tapant
pdftohtml -h
qui te donne la version, 0.19.0 pour celle qui vient d'être compilée.
Pour libopenjpeg, je suppose qu'il faut le paquet avec un dev à la fin.
Cordialement,
Guy
Hors ligne
#9 Le 14/03/2012, à 16:13
- Isaric
Re : Conversion PDF en HTML / poppler
pdftohtml -h
pdftohtml: error while loading shared libraries: libpoppler.so.20: cannot open shared object file: No such file or directory
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#10 Le 14/03/2012, à 16:37
- gl38
Re : Conversion PDF en HTML / poppler
Le libpoppler.so.20 est bien dans l'arborescence du nouveau poppler.
Je n'ai pas fait le "sudo make install" chez moi, mais si je vais dans le dossier poppler-0.19.0, puis dans le sous-dossier utils, et que je tape
./pdftohtml -h
ça marche.
Je me suis trompé, le nouveau pdfhtml devrait être dans /usr/local/bin et les librairies qui vont avec doivent être dans /usr/local/lib, Autant que je me souvienne, il faut que ce dossier soit dans la liste donnée par /etc/ld.so.conf, et pour mettre à jour la liste des librairies il faut lancer ldconfig (sans doute avec un sudo).
En fait la variable PATH met /usr/local/bin avant /usr/bin,
Cordialement,
Guy
Hors ligne
#11 Le 15/03/2012, à 10:02
- Isaric
Re : Conversion PDF en HTML / poppler
Merci gl38, mais je ne suis plus
Remarque :
J'ai également posté une question sur PDFTK : là
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#12 Le 15/03/2012, à 19:18
- Isaric
Re : Conversion PDF en HTML / poppler
Voilà ce que j'obtiens
~/poppler-0.19.0/utils$ ./pdftohtml -h
pdftohtml version 0.19.0
Copyright 2005-2011 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1999-2003 Gueorgui Ovtcharov and Rainer Dorsch
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdftohtml [options] <PDF-file> [<html-file> <xml-file>]
...
que faut-il faire ensuite ?
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#13 Le 15/03/2012, à 19:28
- gl38
Re : Conversion PDF en HTML / poppler
Là c'est utilisable et avec la version que tu voulais.
Il n'y a plus qu'à essayer sur ton fichier pdf pour voir si le html te plaît davantage, ce dont je doute un peu.
Pour l'histoire de libpoppler.so.20 qui n'était pas trouvée, si on redémarre l’ordinateur, ça lance le ldconfig, et si le /usr/local/lib est dans la liste des directories à parcourir, pdftohtml doit fonctionner.
Si ce n'est pas le cas, il faut ajouter une ligne contenant
/usr/local/lib
au fichier /etc/ld.so.conf
Cordialement,
Guy
Hors ligne
#14 Le 16/03/2012, à 10:05
- Isaric
Re : Conversion PDF en HTML / poppler
Merci gl38.
J'ai rajouté au fichier /etc/ld.so.conf une deuxième ligne. Il contient maintenant :
include /etc/ld.so.conf.d/*.conf
/usr/local/lib
J'ai redémarré l'ordinateur et ensuite, j'ai lancé :
$ pdftohtml -c *.
pdfpdftohtml: error while loading shared libraries: libpoppler.so.20: cannot open shared object file: No such file or directory
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#15 Le 16/03/2012, à 10:18
- gl38
Re : Conversion PDF en HTML / poppler
Chez moi, j'ai bien un libpoppler.so dans /usr/local/lib
et après avoir tapé
sudo ldconfig
le nouveau pdftohtml marche.
Cordialement,
Guy
Hors ligne
#16 Le 16/03/2012, à 23:59
- Dude
Re : Conversion PDF en HTML / poppler
L'objectif est de mettre sur le net un travail de plusieurs milliers de pages fait à partir d'un logiciel de bureautique (.rsg)
Je serais curieux de savoir quel est ce logiciel bureautique qui ne sait fabriquer qu'un format mystérieux.
Même FilExt ne connait pas cette extension.
Hors ligne
#17 Le 17/03/2012, à 09:24
- Isaric
Re : Conversion PDF en HTML / poppler
...curieux
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#18 Le 19/03/2012, à 17:58
- Isaric
Re : Conversion PDF en HTML / poppler
Je n'avais pas fait cette commande :
sudo ldconfig
J'obtiens avec pdftohtml -c *.pdf
Page-1
Page-2
Page-3
Page-4
Page-5
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in
Internal Error: Support for this image type not compiled in
Et le résultat est effectivement pas mieux (pire...)
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#19 Le 19/03/2012, à 18:09
- gl38
Re : Conversion PDF en HTML / poppler
Mais le site que tu indiques dit que le logiciel utilisé sait faire de l'export html, pourquoi ne pas l'utiliser ?
Cordialement,
Guy
Hors ligne
#20 Le 19/03/2012, à 19:07
- Isaric
Re : Conversion PDF en HTML / poppler
Mais le site que tu indiques dit que le logiciel utilisé sait faire de l'export html, pourquoi ne pas l'utiliser ?
Cordialement,
Guy
Non, cela ne marche pas, ... .
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#21 Le 19/03/2012, à 21:56
- gl38
Re : Conversion PDF en HTML / poppler
D'après ce qui précède il doit manquer le paquet libopenjpeg-dev pour que ppdftohtml puisse traiter les images jpeg. Chez moi il n'y a pas de messages d'erreur.
Par contre le résultat n'est pas parfait : la première ligne de chaque article est mal écrite.
Cordialement,
Guy
Hors ligne
#22 Le 20/03/2012, à 08:42
- Isaric
Re : Conversion PDF en HTML / poppler
Merci gl38, j'ai installé libopenjpeg-dev, qui n'y était pas et faut-il recommencer la compilation ?
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#23 Le 20/03/2012, à 09:09
- gl38
Re : Conversion PDF en HTML / poppler
Je pense que oui :
./configure
make
sudo make install
Cordialement,
Guy
Hors ligne
#24 Le 20/03/2012, à 10:08
- Isaric
Re : Conversion PDF en HTML / poppler
J'ai refait une compilation, mais le résultat est pas mieux
"Être bahá'í signifie simplement aimer la terre toute entière, aimer l'humanité et essayer de la servir, travailler pour la paix universelle et la famille humaine" 'Abdul'l-Bahá
"Vouloir s'ouvrir aux autres n'est pas une preuve de faiblesse, c'est une preuve d'intelligence" Matthieu Ricard.
Hors ligne
#25 Le 20/03/2012, à 10:20
- gl38
Re : Conversion PDF en HTML / poppler
Si tu fais
./configure|grep jpeg
est-ce que tu n'as que des yes ?
Cordialement,
Guy
Hors ligne