PDF protégés mais besoin d'extraire le texte de ceux-ci.

Behind · Le 15/08/2011, à 13:00

Bonjour à tous,

Je suis actuellement en pleine mise en page en LaTeX d'annales de ma faculté. J'ai un petit problème car on m'a fourni les pdf des annales pour une année, or sur ceux-ci je ne peux rien sélectionner du tout, je ne peux donc pas copier les textes, ce qui rend la manoeuvre extrêmement longue et pas sûre du tout concernant les fautes de frappes.

Si quelqu'un a une solution je suis preneur. Je sais qu'il y a des solutions que j'ai essayer, mais ça ne fonctionne pas (je parle notamment de import pdf sur Ooo ou encore de logiciel de gestion des pdf style pdf editor..)

Merci d'avance,

Quentin.

Ayral · Le 15/08/2011, à 14:28

http://doc.ubuntu-fr.org/pdfedit ?

Behind · Le 15/08/2011, à 14:48

C'est pas comme si j'avais dit que ça ne fonctionnait pas et que j'avais essayé..

Hermes le Messager · Le 15/08/2011, à 14:57

Behind a écrit :

C'est pas comme si j'avais dit que ça ne fonctionnait pas et que j'avais essayé..

La seule solution c'est l'OCR, en particulier tesseract intégré dans gscan2pdf.

jilucorg · Le 15/08/2011, à 16:24

Un truc facile à tester – qui peut marcher ou non selon la méthode qui a été utilisée pour rendre le pdf "incopiable" –, c'est 'imprimer dans un fichier' → 'Format de sortie PDF'

Goulou99 · Le 15/08/2011, à 16:50

Salut,

Tu as essayé la commande less tonfichier.pdf dans un terminal ?

Behind · Le 15/08/2011, à 17:47

Merci de vos réponses à tous.

Alors gscan2pdf je vais tester ça, je l'ai en plus, mais il ne veux pas ouvrir mon .pdf, enfin ça c'est rien je vais retester

La commande less ne fonctionne pas et l'impression non plus.

Le gros problème je pense c'est que ces pdf sont des scans des sujets de la faculté.. Donc qualité horrible, et sûrement enregistré comme des images sur du A4..

Hermes le Messager · Le 15/08/2011, à 19:33

Behind a écrit :

Merci de vos réponses à tous.
Alors gscan2pdf je vais tester ça, je l'ai en plus, mais il ne veux pas ouvrir mon .pdf, enfin ça c'est rien je vais retester
La commande less ne fonctionne pas et l'impression non plus.
Le gros problème je pense c'est que ces pdf sont des scans des sujets de la faculté.. Donc qualité horrible, et sûrement enregistré comme des images sur du A4..

Tu ne pourras pas ouvrir directement avec gscan2pdf.

La marche à suivre:

1) Si le pdf est protégé, il faut le transformer en PS:

pdf2ps fichier.pdf fichier_resultat.ps

2) Ouvrir fichier_resultat.ps avec gimp et extraire les pages une à une et les enregistrer en png à la résolution 300 dpi.

3) OUvrir les pages l'une après l'autre dans gscan2pdf, puis lancer l'OCR en sélectionnant tesseract.

Voilà.

jilucorg · Le 15/08/2011, à 19:41

Il y a une doc → http://doc.ubuntu-fr.org/gscan2pdf

compte supprimé · Le 16/08/2011, à 04:11

Salut !
J'ai été confronté à ce problème et... Pas de vraie solution.
L'OCR sous GNU/linux, c'est franchement pas au point, et en plus si ton truc est un scan dégueulasse, laisse tomber.

Pour décrypter un PDF, y'a cette astuce mais autant te prévenir ça n'a jamais marché chez moi :
http://www.ubuntugeek.com/howto-crack-p … sword.html

Hermes le Messager · Le 16/08/2011, à 06:50

monsieurweller a écrit :

Salut !
J'ai été confronté à ce problème et... Pas de vraie solution.
L'OCR sous GNU/linux, c'est franchement pas au point,

Gné ? L'OCR marche parfaitement chez moi, aussi bien que sous windows. La seule différence, c'est au niveau du rendu de la mise en page, mais pour ce qui est du texte brut, tesseract marche très bien avec les bons réglages.

redo_fr · Le 16/08/2011, à 08:53

Salut,

peut-être peux tu essayer d’installer "okular" (lecteur PDF pour KDE)
Il dispose d'une option dans les menus permettant de "désactiver" les DRM qui empêchent la copie ^_^

compte supprimé · Le 16/08/2011, à 09:20

Hermes le Messager a écrit :

monsieurweller a écrit :
Salut !
J'ai été confronté à ce problème et... Pas de vraie solution.
L'OCR sous GNU/linux, c'est franchement pas au point,
Gné ? L'OCR marche parfaitement chez moi, aussi bien que sous windows. La seule différence, c'est au niveau du rendu de la mise en page, mais pour ce qui est du texte brut, tesseract marche très bien avec les bons réglages.

Je peux pas dire, j'utilisais pas vraiment l'OCR avant.
Mais quand tu as 72 pages de texte brut, crois moi, copier/coller dans libreoffice, chercher tout les artefacts (tesseract collant des . à la moindre poussière suspecte), remplacer les apostrophes inverses par de vraies apostrophes, se farcir la mise en page...

Je l'ai fait une fois, on ne m'y reprendra pas. Parce que ça revient à sortir un bazooka pour dégommer une mouche finalement.

Dernière modification par monsieurweller (Le 16/08/2011, à 09:20)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 15/08/2011, à 13:00

PDF protégés mais besoin d'extraire le texte de ceux-ci.

#2 Le 15/08/2011, à 14:28

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#3 Le 15/08/2011, à 14:48

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#4 Le 15/08/2011, à 14:57

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#5 Le 15/08/2011, à 16:24

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#6 Le 15/08/2011, à 16:50

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#7 Le 15/08/2011, à 17:47

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#8 Le 15/08/2011, à 19:33

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#9 Le 15/08/2011, à 19:41

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#10 Le 16/08/2011, à 04:11

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#11 Le 16/08/2011, à 06:50

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#12 Le 16/08/2011, à 08:53

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

#13 Le 16/08/2011, à 09:20

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Pied de page des forums