Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 14/04/2018, à 16:18

novubuntu

copie d'un texte sous pdf pour traduction(RESOLU)

Bonjour,

On m'a remis des documents en format papier, je les ai scanné, je les ouvre ensuite avec la visionneuse de documents mais je ne peux pas malheureusement copier le texte du pdf.
Ces documents sont en anglais et je voudrais copier le texte en anglais de ces pdf afin de me faire aider par les traducteurs en ligne (deepl par exemple).

Y aurait-il une solution?

J'ai xubuntu 14.04 lts.

Merci d'avance.

Dernière modification par novubuntu (Le 14/04/2018, à 19:04)

Hors ligne

#2 Le 14/04/2018, à 16:26

erresse

Re : copie d'un texte sous pdf pour traduction(RESOLU)

Bonjour,
Lorsque tu as scanné tes documents, tu as simplement produit des images de ces documents, à raison d'une image par page...
Même en les mettant dans un fichier pdf, tu ne pourras pas avoir accès aux textes car ils ne sont pas indépendants, ce n'est que la photographie du texte, il n'y a pas de caractères séparés qu'on puisse sélectionner.
Pour pouvoir retoucher des textes, il faut les scanner sous forme OCR, on peut alors produire un document utilisable dans un traitement de textes, le corriger, l'imprimer, etc.


Plus de 50 ans d'informatique, ça en fait des lignes de commandes en console, mais on n'avait pas le choix...
Excellente raison pour, aujourd'hui qu'on le peut, utiliser au maximum les INTERFACES GRAPHIQUES !
Important : Une fois résolu, pensez à clore votre sujet en ajoutant [Résolu] devant le titre du 1er message, et un bref récapitulatif de la solution à la fin de celui-ci. Merci.

En ligne

#3 Le 14/04/2018, à 16:30

michcauch

Re : copie d'un texte sous pdf pour traduction(RESOLU)

Bonsoir,
Regarde la page de doc consacrée à la reconnaissance de caractères, c'est ici.


Cordialement
Michel
___
Ubuntu 22.04 sur Clevo N141WU

Hors ligne

#4 Le 14/04/2018, à 16:38

novubuntu

Re : copie d'un texte sous pdf pour traduction(RESOLU)

Merci pour le decryptage!....je pensais qu'il y avait une histoire de protection et de sécurité car j'ai des pdf que je peux modifier (mais pas ceux issus de mon scan c'est vrai).

Dans la logithèque je viens de voir qu'il y avait OCRfeeder. Je peux essayer d'utiliser ça?

Autre précision je ne sais pas si elle a une importance, je fais mon scan à partir d'un pc sous windows xp....

Hors ligne

#5 Le 14/04/2018, à 16:50

erresse

Re : copie d'un texte sous pdf pour traduction(RESOLU)

À mon avis, peu importe à partir de quel système tu effectues le scan, il doit produire un fichier en texte que l'on peut traiter avec un traitement de texte.


Plus de 50 ans d'informatique, ça en fait des lignes de commandes en console, mais on n'avait pas le choix...
Excellente raison pour, aujourd'hui qu'on le peut, utiliser au maximum les INTERFACES GRAPHIQUES !
Important : Une fois résolu, pensez à clore votre sujet en ajoutant [Résolu] devant le titre du 1er message, et un bref récapitulatif de la solution à la fin de celui-ci. Merci.

En ligne

#6 Le 14/04/2018, à 17:04

gl38

Re : copie d'un texte sous pdf pour traduction(RESOLU)

Ce qui est important pour l'OCR c'est le moteur, pour linux, le meilleur est, pour ce qui me concerne, tesseract.
Mais la qualité du scan est aussi fondamentale : noir et blanc et 300 dpi, pas de texte en travers...
Cordialement,
Guy

Hors ligne

#7 Le 14/04/2018, à 17:37

novubuntu

Re : copie d'un texte sous pdf pour traduction(RESOLU)

Ok
bon j'ai fait pas mal de manip, j'ai du télécharger Ocrad comme moteur de recherche car sinon cela ne marchait pas. J'ai suivi donc l'avis laissé par un utilisateur dans la logithèque.
Mon scan etait bon je pense avec la meilleure résolution possible 600dpi et texte bien vertical.

Cela marche maintenant (avec ocrad) mais ce n'est pas extraordinaire (je ne sais pas forcément bien l'utiliser aussi sans doute), l'exportation en fichier odt ne fonctionne pas, je suis obligé de faire un copie collé dans ocrfeeder puis ensuite ouvrir un doc libre office writer pour coller le texte, cela ne se fait pas automatiquement comme pour les autres modes.
Par contre les autres modes d'export fonctionnent, le htlm est sans doute visuellement pour la mise en page et la forme le plus fidèle à l'original........ je verrai si cela peut m'aider dans ma traduction.

Merci!

Hors ligne