Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 15/08/2011, à 13:00

Behind

PDF protégés mais besoin d'extraire le texte de ceux-ci.

Bonjour à tous,

Je suis actuellement en pleine mise en page en LaTeX d'annales de ma faculté. J'ai un petit problème car on m'a fourni les pdf des annales pour une année, or sur ceux-ci je ne peux rien sélectionner du tout, je ne peux donc pas copier les textes, ce qui rend la manoeuvre extrêmement longue et pas sûre du tout concernant les fautes de frappes.

Si quelqu'un a une solution je suis preneur. Je sais qu'il y a des solutions que j'ai essayer, mais ça ne fonctionne pas (je parle notamment de import pdf sur Ooo ou encore de logiciel de gestion des pdf style pdf editor..)

Merci d'avance,

Quentin.


Administrateur Informatique de la Corporation des Etudiants en Médecine de Paris VI.
"On rit mal des autres, quand on ne sait pas d'abord rire de soi-même."
Quad Core Q9950 2.83 ghz | Double écran 19"*24"
4 go DDR3 G.Skill | 8800 GT 512 mo

Hors ligne

#2 Le 15/08/2011, à 14:28

Ayral

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.


Pour mettre les retours de commande entre deux balises code, les explications sont là : https://forum.ubuntu-fr.org/viewtopic.php?id=1614731
Blog d'un retraité
Site de graphisme du fiston Loïc
Ubuntu 22.04 LTS sur un Thinkpad W540

Hors ligne

#3 Le 15/08/2011, à 14:48

Behind

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

C'est pas comme si j'avais dit que ça ne fonctionnait pas et que j'avais essayé..


Administrateur Informatique de la Corporation des Etudiants en Médecine de Paris VI.
"On rit mal des autres, quand on ne sait pas d'abord rire de soi-même."
Quad Core Q9950 2.83 ghz | Double écran 19"*24"
4 go DDR3 G.Skill | 8800 GT 512 mo

Hors ligne

#4 Le 15/08/2011, à 14:57

Hermes le Messager

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Behind a écrit :

C'est pas comme si j'avais dit que ça ne fonctionnait pas et que j'avais essayé..

La seule solution c'est l'OCR, en particulier tesseract intégré dans gscan2pdf.

Hors ligne

#5 Le 15/08/2011, à 16:24

jilucorg

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Un truc facile à tester – qui peut marcher ou non selon la méthode qui a été utilisée pour rendre le pdf "incopiable" –, c'est 'imprimer dans un fichier' → 'Format de sortie  PDF'


  jiluc.
––
             Pour soutenir concrètement le logiciel libre : l'April !    http://www.april.org

Hors ligne

#6 Le 15/08/2011, à 16:50

Goulou99

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Salut,

Tu as essayé la commande less tonfichier.pdf dans un terminal ?

Hors ligne

#7 Le 15/08/2011, à 17:47

Behind

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Merci de vos réponses à tous.

Alors gscan2pdf je vais tester ça, je l'ai en plus, mais il ne veux pas ouvrir mon .pdf, enfin ça c'est rien je vais retester wink

La commande less ne fonctionne pas et l'impression non plus.

Le gros problème je pense c'est que ces pdf sont des scans des sujets de la faculté.. Donc qualité horrible, et sûrement enregistré comme des images sur du A4..


Administrateur Informatique de la Corporation des Etudiants en Médecine de Paris VI.
"On rit mal des autres, quand on ne sait pas d'abord rire de soi-même."
Quad Core Q9950 2.83 ghz | Double écran 19"*24"
4 go DDR3 G.Skill | 8800 GT 512 mo

Hors ligne

#8 Le 15/08/2011, à 19:33

Hermes le Messager

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Behind a écrit :

Merci de vos réponses à tous.

Alors gscan2pdf je vais tester ça, je l'ai en plus, mais il ne veux pas ouvrir mon .pdf, enfin ça c'est rien je vais retester wink

La commande less ne fonctionne pas et l'impression non plus.

Le gros problème je pense c'est que ces pdf sont des scans des sujets de la faculté.. Donc qualité horrible, et sûrement enregistré comme des images sur du A4..

Tu ne pourras pas ouvrir directement avec gscan2pdf.

La marche à suivre:

1) Si le pdf est protégé, il faut le transformer en PS:

pdf2ps fichier.pdf fichier_resultat.ps

2) Ouvrir fichier_resultat.ps avec gimp et extraire les pages une à une et les enregistrer en png à la résolution 300 dpi.

3) OUvrir les pages l'une après l'autre dans gscan2pdf, puis lancer l'OCR en sélectionnant tesseract.

Voilà.

Hors ligne

#9 Le 15/08/2011, à 19:41

jilucorg

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.


  jiluc.
––
             Pour soutenir concrètement le logiciel libre : l'April !    http://www.april.org

Hors ligne

#10 Le 16/08/2011, à 04:11

compte supprimé

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Salut !
J'ai été confronté à ce problème et... Pas de vraie solution. hmm
L'OCR sous GNU/linux, c'est franchement pas au point, et en plus si ton truc est un scan dégueulasse, laisse tomber.

Pour décrypter un PDF, y'a cette astuce mais autant te prévenir ça n'a jamais marché chez moi :
http://www.ubuntugeek.com/howto-crack-p … sword.html

#11 Le 16/08/2011, à 06:50

Hermes le Messager

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

monsieurweller a écrit :

Salut !
J'ai été confronté à ce problème et... Pas de vraie solution. hmm
L'OCR sous GNU/linux, c'est franchement pas au point,

Gné ? L'OCR marche parfaitement chez moi, aussi bien que sous windows. La seule différence, c'est au niveau du rendu de la mise en page, mais pour ce qui est du texte brut, tesseract marche très bien avec les bons réglages.

Hors ligne

#12 Le 16/08/2011, à 08:53

redo_fr

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Salut,

peut-être peux tu essayer d’installer "okular" (lecteur PDF pour KDE)
Il dispose d'une option dans les menus permettant de "désactiver" les DRM qui empêchent la copie ^_^


Il n'y a pas de mauvais outils, il n'y a que de mauvais ouvriers
- papy -
Personnellement, je crois que faire des procès est un signe que les affaires vont mal. Je ne dis pas que Microsoft va mal, ce n'est qu'un signe, pas un indicateur...
- Linus Torvalds -

Hors ligne

#13 Le 16/08/2011, à 09:20

compte supprimé

Re : PDF protégés mais besoin d'extraire le texte de ceux-ci.

Hermes le Messager a écrit :
monsieurweller a écrit :

Salut !
J'ai été confronté à ce problème et... Pas de vraie solution. hmm
L'OCR sous GNU/linux, c'est franchement pas au point,

Gné ? L'OCR marche parfaitement chez moi, aussi bien que sous windows. La seule différence, c'est au niveau du rendu de la mise en page, mais pour ce qui est du texte brut, tesseract marche très bien avec les bons réglages.

Je peux pas dire, j'utilisais pas vraiment l'OCR avant.
Mais quand tu as 72 pages de texte brut, crois moi, copier/coller dans libreoffice, chercher tout les artefacts (tesseract collant des . à la moindre poussière suspecte), remplacer les apostrophes inverses par de vraies apostrophes, se farcir la mise en page...

Je l'ai fait une fois, on ne m'y reprendra pas. Parce que ça revient à sortir un bazooka pour dégommer une mouche finalement.

Dernière modification par monsieurweller (Le 16/08/2011, à 09:20)