Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 20/06/2014, à 17:38

pbedel

Comment extraire d'un pdf un tableau et conserver les liens ?

Bonjour,
Je me suis enfin converti à Linux après un petit passage par windaube, 5 ans et MacOs, plus de 20 ans.
J'ai sur un disque externe un dossier /media/LaCie/www20140323/www/OFFICESERVICE/PDF qui contient un peu plus de 50.000 pdf.
Je cherche en ligne de commande à extraire le tableau de fin qui établit les liens entre chaque produits.
Par exemple : http://www.officeservice.fr/PDF/16810.PDF
Faire une sortie du tableau en html et conserver les lien des pdf dans le dossier /media/LaCie/www20140323/www/OFFICESERVICE/PDF/HTML_PDF
Est-ce possible ?
Si oui, comment faire car avant que je n'y parvienne, j'ai tant de choses à apprendre !!!!!
Quelqu'une ou quelqu'un peut-il m'aider ?
Il va sans dire que je suis prêt à rendre en échange un service dans mes capacités.
Merci pour vos nombreuses réponses.
Cordialement.
Philippe

Hors ligne

#2 Le 21/06/2014, à 17:10

BERGUERAND

Re : Comment extraire d'un pdf un tableau et conserver les liens ?

bonjour,
pour moi deux solutions:
  1 en ligne de commande, avec le module pdftohtml du paquet poppler-utils
       

$ pdftohtml test.pdf test.html

  2 utiliser le module python python-pdfrw
La première solution à l'avantage d'être simple, mais le fichier html généré est plutôt rustique.
La deuxième solution, demande des connaissances python (qui peuvent s'acquérir assez facilement), mais on obtient un résultat plus proche de ses désirs. Le langage  python est très approprier pour la conversion des formats de fichiers...

Bon courage
Alain

Dernière modification par BERGUERAND (Le 21/06/2014, à 17:14)


Alain

Hors ligne