Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 03/07/2010, à 22:06

crocefisso

Déocériser un PDF

Bonjour,

Désolé d'inventer des mots, mais la question est assez singulière, et je n'arrive pas à trouver de terminologie établie.

On peut dire qu'un PDF peut être en deux "formats"
- le "format 1" étant un format où les éléments textuels du pdf sont en mode texte, c'est à dire qu'on peut effectuer des recherche textuelles et copier le texte du pdf.
- le "format 2" étant un format où les éléments textuels du pdf ne sont pas en mode texte, on ne peut pas faire de recherche ou copier quoi que ce soit.

Passer du format 2 au format 1 s'appelle "océriser" (on utilise un logiciel de reconnaissance de caractères ), et on peut trouver sur le forum, plusieurs messages concernant ce type de conversion. J'aurais besoin de faire l'opération inverse : passer du format 1 au format 2 (ce que j'ai appeler maladroitement "déocériser) et je voulais savoir s'il existait un moyen simple pour le faire. La seule option que je vois, c'est de convertir le pdf en autant d'images qu'il y a de pages puis d'assembler toutes les images en un seul pdf. Les deux problèmes de cette méthode sont que :
1. je ne sais pas comment convertir un pdf en autant d'images qu'il a de pages
2. mon fichier pdf fait beaucoup de pages et j'ai peur de me retrouver avec un fichier trop lourd.

Donc, si quelqu'un savait comment résoudre le problème 1 ou 2 (je suppose que la résolution du problème 2 impose une autre méthode que celle que j'ai avancé, ce qui a ma préférence) je lui en serait très reconnaissant.

Je précise que je suis sous Lucid 64bits

Merci par avance

Dernière modification par crocefisso (Le 01/01/2011, à 23:10)

Hors ligne

#2 Le 03/07/2010, à 22:35

lovasoa

Re : Déocériser un PDF

Je pense qu'imagemagick sait faire ce genre de choses. Sinon, j'imagine que ton but Est d'éviter le copié-collé. Je pense que le format PDF peut faire ce genre de choses nativement.

Remarque de chieur HS: Empêcher le copié-collé, c'est restreindre la réutilisation du document, et cela va à l'encontre des valeurs de partage du logiciel libre, qui nous sont si chères...

Dernière modification par lovasoa (Le 03/07/2010, à 22:36)


Pour les pauvres idiots, il y a Windows. Pour les riches Idiots, il y a mac os. Pour moi, il y a Ubuntu.

Hors ligne

#3 Le 03/07/2010, à 23:32

crocefisso

Re : Déocériser un PDF

lovasoa a écrit :

Je pense qu'imagemagick sait faire ce genre de choses. Sinon, j'imagine que ton but Est d'éviter le copié-collé.

Merci beaucoup pour le tuyeau, en effet imagemagick permet de résoudre le problème 1, il suffit lancer la commande suivante à partir du dossier ou se trouve le pdf :

convert METTRE_ICI_LE_NOM_DU_DOCUMENT.pdf output.png

Je pense que le format PDF peut faire ce genre de choses nativement.

Moi aussi j'ai envisagé cette possibilité, mais n'ai aucune idée sur la façon d'exécuter la manœuvre, faudrait il passer par une machine sous M$?

Remarque de chieur HS: Empêcher le copié-collé, c'est restreindre la réutilisation du document, et cela va à l'encontre des valeurs de partage du logiciel libre, qui nous sont si chères...

Remarque de superchieur HS : Ce que tu dis implique à mon sens que les valeurs de partage du logiciel libre commandent la disparition pur et simple du droit d'auteur. Je ne crois pas que les valeur du logiciel libre aillent aussi loin bien que je ne sois pas spécialement défenseur du droit d'auteur. En effet, si l'auteur d'un PDF (il pourrait y avoir dessus une partition, un livre, un brevet, etc.) est partisan du logiciel libre, il devrait non seulement le diffuser gratuitement à tous, mais en plus faire en sorte que le contenu puisse être copier-collable.

Quoi qu'il en soit je ne suis pas pour le droit d'auteur, et le pdf en question n'est pas destiné à être vendu ni à être diffusé. Il s'agit d'un travail de recherche et l'administration à laquelle il est destiné me demande (outre une version papier) une version word ou pdf (j'ai fait le document avec LaTex). Je leur ai demandé pourquoi ils voulaient une version électronique et ils m'ont répondu que c'était pour vérifier l'originalité du travail à l'aide d'un logiciel spécialisé. Mon travail est 100% original, mais par scepticisme et par curiosité, je souhaite remettre un document désocérisé. Est-ce contraire au valeurs du logiciel libre rav ?

Dernière modification par crocefisso (Le 05/07/2010, à 20:53)

Hors ligne

#4 Le 03/07/2010, à 23:47

lovasoa

Re : Déocériser un PDF

Pour moi, avoir un contenu copié-collable, c'est un peu comme avoir une source recompilable, modifiable, et redistribuable...
  Mais si ces gens sont censés vérifier ton travail, c'est peut-être un peu risqué pour toi de leur faire ce genre de blague...


Pour les pauvres idiots, il y a Windows. Pour les riches Idiots, il y a mac os. Pour moi, il y a Ubuntu.

Hors ligne

#5 Le 04/07/2010, à 04:42

YannUbuntu

Re : Déocériser un PDF

crocefisso a écrit :

en effet imagemagick permet de resoudre le probleme 1, il suffit lancer la commande suivante a partir du dossier ou se trouve le pdf :

convert METTRE_ICI_LE_NOM_DU_DOCUMENT.pdf output.png

mettre un lien vers ce tuto dans la page http://doc.ubuntu-fr.org/pdf svp

Merci d'avance pour votre aide smile


à consulter/améliorer: Guide du Débutant, Logiciels, Ecole, Travail, Maison

Hors ligne

#6 Le 05/07/2010, à 06:20

crocefisso

Re : Déocériser un PDF

YannUbuntu a écrit :

mettre un lien vers ce tuto dans la page http://doc.ubuntu-fr.org/pdf svp

Merci d'avance pour votre aide smile

Je complèterais un peu le "tuto" dans les prochains jours, j'espère pouvoir trouver comment régler la qualité des images, et puis je rajouterais la ligne qui permet de rassembler le tout dans un pdf.

Dernière modification par crocefisso (Le 05/07/2010, à 06:21)

Hors ligne

#7 Le 05/07/2010, à 11:51

YannUbuntu

Re : Déocériser un PDF

ok.
J'ai mis le lien vers cette discussion dans http://doc.ubuntu-fr.org/pdf


à consulter/améliorer: Guide du Débutant, Logiciels, Ecole, Travail, Maison

Hors ligne

#8 Le 22/07/2010, à 23:40

Postmortem

Re : Déocériser un PDF

Une manière toute simple, grâce à ImageMagick et sa commande convert, mais le résultat n'est pas très beau ; il doit y avoir moyen d'améliorer ça avec quelques options...

convert test_texte_pdf.pdf essai_sans_texte.pdf

Mot' a dit : « Un Hellfest sans Slayer, c'est comme une galette-saucisse sans saucisse ! »

Hors ligne

#9 Le 23/09/2010, à 17:01

crocefisso

Re : Déocériser un PDF

Ok, donc pour déocériser un document voici la méthode :

Pour décomposer le pdf de x pages en x images :

convert input.pdf output.png

Si on veut améliorer ou réduire la qualité, on utilise l'option density. Par défaut, density=72. Si on veut une bonne qualité pour du texte, on peut par exemple faire :

convert -density 200 input.pdf output.png

Enfin il reste à rassembler toutes les images dans un seul pdf, pour cela il faut faire :

convert *.png output.pdf

Et voilà, le tour est joué...

Dernière modification par crocefisso (Le 23/09/2010, à 17:09)

Hors ligne

#10 Le 23/09/2010, à 17:27

crocefisso

Re : Déocériser un PDF

On pourra aussi faire :

convert -density xyz input.pdf output.pdf

Où x, y et z seront remplacés par des chiffres ; 072 étant la valeur par défaut.

Edit : cette méthode est moins bonne car le rapport qualité/taille est nettement inférieur à celui de la méthode en trois étapes

Dernière modification par crocefisso (Le 24/09/2010, à 00:46)

Hors ligne

#11 Le 01/10/2010, à 17:22

fay

Re : Déocériser un PDF

j'ai trouvé une autre solution, un peu plus "propre" pour des documents textes :
avec evince, ouvrez votre pdf et imprimez-le dans un fichier. Choisissez le format SVG pour la sortie
Et là magie : le svg contient le document mais seulement en chemins, plus de texte!
il ne reste plus qu'à refaire l'impression dans un fichier pdf, cette fois-ci

ça posera p-e problème s'il y a des éléments graphiques trop pointus, mais moi j'ai ma page à l'identique et sans pixel smile

après, ceux qui trouvent ça tellement immoral ont sûrement jamais mis leur cv en ligne. Ça empêchera jamais personne de recopier mais au moins mes coordonnées seront plus en première page sur google.

Hors ligne

#12 Le 25/09/2011, à 15:47

Cyril0-9

Re : Déocériser un PDF

crocefisso a écrit :
YannUbuntu a écrit :

mettre un lien vers ce tuto dans la page http://doc.ubuntu-fr.org/pdf svp

Merci d'avance pour votre aide smile

Je complèterais un peu le "tuto" dans les prochains jours, j'espère pouvoir trouver comment régler la qualité des images, et puis je rajouterais la ligne qui permet de rassembler le tout dans un pdf.

Bonjour,
je suppose que c'est toi qui as ajouté la commande

gs -dBATCH -DNOPAUSE -q -sDEVICE=pdfwrite -dEncryptionR=3 -dKeyLength=40 -dPermissions=65472 -sOwnerPassword=null -sOutputFile=sortie.pdf -f Entree.pdf

Or je souhaite modifier les droits en ajoutant juste l'autorisation d'imprimer:
dans la mesure où dPermissions n'est pas mentionné dans man gs, et que rien n'est mentionné pour le grand public sur les DRM par la spécification adobe seconde et derniere révision sur PDF 1.3. Ni par Ghostscript.

Où as tu trouvé la valeur dPermissions?
peux tu donner un moyen de trouver toutes les autres valeurs de dPermissions s'il te plais?

Hors ligne

#13 Le 16/03/2012, à 00:10

Spirit59

Re : Déocériser un PDF

Salut,

Je cherchais la même chose que toi, et je crois que la réponse est sur cette page :

http://guillaumemuller1.free.fr/tips.php

Fais une recherche de mot dans ta page avec "-dPermissions" et tu tomberas sur l'explication de la constitution de la valeur.

Hors ligne

#14 Le 16/03/2012, à 08:12

Brunod

Re : Déocériser un PDF

Salut,
Je n'ai pas le temps de tester, mais je pense qu'en imprimant le pdf vers l'imprimante virtuelle générant les pdf, cela crée un nouveau fichier qui n'est plus éditable en tant que texte.
Si je peux je testerai tout à l'heure et rapporterai le résultat.


Windows est un système d'exploitation de l'homme par l'ordinateur. Linux, c'est le contraire...
39 pc linux convertis

Hors ligne

#15 Le 16/03/2012, à 08:32

promethe69

Re : Déocériser un PDF

pour ce qui est des droits d'auteurs, tu peux toujours signer de manière numérique un document pdf grâce a un lecteur eid il me semble.

Hors ligne

#16 Le 16/03/2012, à 09:01

gl38

Re : Déocériser un PDF

Avec pdftoppm on peut transformer un pdf en une image sur laquelle on peut faire passer cuneiform et obtenir des bouts de texte.
Cordialement,
Guy

Hors ligne

#17 Le 16/03/2012, à 13:53

Mathieu147

Re : Déocériser un PDF

lovasoa a écrit :

Remarque de chieur HS: Empêcher le copié-collé, c'est restreindre la réutilisation du document, et cela va à l'encontre des valeurs de partage du logiciel libre, qui nous sont si chères...

Non, ça n'a rien à voir…

Ce que veut faire crocefisso, c'est plutôt un genre de DRM très simple: il a décidé qu'on pouvait lire son fichier ou l'imprimer, mais pas le copier/coller. Ça n'a aucun rapport avec le logiciel libre. Le seul rapport avec le logiciel libre qu'on pourrait éventuellement trouver en étant un peu tordu, c'est que les DRM de manière générale sont difficilement implémentable (voire pas implémentables du tout) par des solutions GPL, et là, c'est un peu plus ou moins un genre de DRM.

Brunod a écrit :

Je n'ai pas le temps de tester, mais je pense qu'en imprimant le pdf vers l'imprimante virtuelle générant les pdf, cela crée un nouveau fichier qui n'est plus éditable en tant que texte.

Non, j'ai essayé, ça ne fonctionne pas. Par contre, en SVG comme propose fay, ça fonctionne.



Si c'est juste pour emmerder un prof pour faire planter son logiciel, c'est peut-être un peu risqué. Ceci dit, ils demandent un PDF, et techniquement, tu leur donnes un PDF, donc ils ne peuvent rien te dire.

Ce qui est plus délicat, c'est qu'il te disent qu'il veulent un PDF pour l'utiliser dans un but précis, et que tu leur as délibérément modifié ton PDF pour qu'il soit inutilisable dans le but précis en question. Mais tu fais comme tu as envie.


Pffff…

Hors ligne