Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 24/08/2007, à 00:27

abelthorne

[résolu] Extraire des pages de PDF au format d'origine

Bonsoir,
Il y a longtemps, sous Windows, j'avais profité de l'utilisation d'Acrobat (version complète, pas le Reader) pour créer des PDF à partir d'images : en prenant x images et en les ajoutant dans le soft, j'obtenais un document PDF de x pages (qui gardait les dimensions et la résolution des images d'origine).

Je voudrais maintenant faire l'opération inverse, si possible sous Ubuntu. Le but est de reprendre ces PDF et d'obtenir les images d'origines sous forme de fichiers indépendants. J'insiste bien sur le fait que je veux obtenir des images et pas des PDF de 1 page chacun.

Est-ce qu'il y a un logiciel qui me permettrait de faire cette opération ? J'ai jeté un coup d'œil à la doc et j'ai vu qu'il y avait PDF Split & Merge et PDFEdit, mais j'ai l'impression qu'ils ne me permettront que d'avoir du PDF en sortie.

Je précise que j'aurais besoin d'un soft ou d'un script qui me permettrait de faire ça en batch, étant donné qu'au total je dois avoir quelques milliers de pages à extraire... (donc une solution du genre "extraire les pages sous forme de fichiers PDF simples et les convertir en image une par une" n'est pas vraiment idéale)

À priori, les images sont juste encapsulées dans les fichiers PDF : lorsqu'ils sont lus (du moins avec Adobe Reader sous Windows), les numéros de pages affichent les noms de fichiers d'origine et j'avais déjà pu faire l'opération escomptée sur quelques fichiers (Acrobat a une option "extraire les pages").

Dernière modification par abelthorne (Le 24/08/2007, à 08:21)

Hors ligne

#2 Le 24/08/2007, à 00:37

foustala

Re : [résolu] Extraire des pages de PDF au format d'origine

Avec pdfimages compris dans le paquet xpdf : les images sont stockées dans MesImages-000.jpg etc :

pdfimages -j MonFichier.pdf MesImages

Hors ligne

#3 Le 24/08/2007, à 08:15

abelthorne

Re : [résolu] Extraire des pages de PDF au format d'origine

Ah, cool. Merci, je vais voir ça.

EDIT : tiens, en plus il est déjà installé dans le paquet poppler-utils.

Et après un petit test, ça marche. C'est pile ce qu'il me fallait (à part qu'il a l'air de convertir les pages plutôt que de les désencapsuler mais pour dans mon cas ça ira sans problème).

Dernière modification par abelthorne (Le 24/08/2007, à 08:21)

Hors ligne

#4 Le 24/08/2007, à 18:13

foustala

Re : [résolu] Extraire des pages de PDF au format d'origine

abelthorne a écrit :

il a l'air de convertir les pages plutôt que de les désencapsuler

Cela dépend de comment le PDF a été généré.

Hors ligne

#5 Le 24/08/2007, à 19:02

abelthorne

Re : [résolu] Extraire des pages de PDF au format d'origine

Quand j'ai fait les PDF, j'ai eu l'impression que les images étaient mises telles quellles (comme dans une archive). Bizarre.

Autre chose : pdfimages extrait les images en niveaux de gris au format ppm, malgré l'utilisation de l'option -j (extraire en jpeg). Je ne sais pas si c'est normal ou si c'est un bug ?

Hors ligne

#6 Le 24/08/2007, à 19:14

foustala

Re : [résolu] Extraire des pages de PDF au format d'origine

Bah écoute, moi ca marche parfait. J'ai de la couleur et les vrais images d'origine.

Hors ligne

#7 Le 24/08/2007, à 19:17

abelthorne

Re : [résolu] Extraire des pages de PDF au format d'origine

Je me suis mal exprimé : les images qui sont à l'origine en couleur sont extraites en jpeg ,tandis que celles qui sont en niveaux de gris se retrouvent en ppm. Ce n'est pas un gros problème (je les reconvertis après avec gThumb) mais ça me paraît bizarre.

Hors ligne