Comment extraire d'un pdf un tableau et conserver les liens ?

pbedel · Le 20/06/2014, à 17:38

Bonjour,
Je me suis enfin converti à Linux après un petit passage par windaube, 5 ans et MacOs, plus de 20 ans.
J'ai sur un disque externe un dossier /media/LaCie/www20140323/www/OFFICESERVICE/PDF qui contient un peu plus de 50.000 pdf.
Je cherche en ligne de commande à extraire le tableau de fin qui établit les liens entre chaque produits.
Par exemple : http://www.officeservice.fr/PDF/16810.PDF
Faire une sortie du tableau en html et conserver les lien des pdf dans le dossier /media/LaCie/www20140323/www/OFFICESERVICE/PDF/HTML_PDF
Est-ce possible ?
Si oui, comment faire car avant que je n'y parvienne, j'ai tant de choses à apprendre !!!!!
Quelqu'une ou quelqu'un peut-il m'aider ?
Il va sans dire que je suis prêt à rendre en échange un service dans mes capacités.
Merci pour vos nombreuses réponses.
Cordialement.
Philippe

BERGUERAND · Le 21/06/2014, à 17:10

bonjour,
pour moi deux solutions:
1 en ligne de commande, avec le module pdftohtml du paquet poppler-utils

$ pdftohtml test.pdf test.html

2 utiliser le module python python-pdfrw
La première solution à l'avantage d'être simple, mais le fichier html généré est plutôt rustique.
La deuxième solution, demande des connaissances python (qui peuvent s'acquérir assez facilement), mais on obtient un résultat plus proche de ses désirs. Le langage python est très approprier pour la conversion des formats de fichiers...

Bon courage
Alain

Dernière modification par BERGUERAND (Le 21/06/2014, à 17:14)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 20/06/2014, à 17:38

Comment extraire d'un pdf un tableau et conserver les liens ?

#2 Le 21/06/2014, à 17:10

Re : Comment extraire d'un pdf un tableau et conserver les liens ?

Pied de page des forums