Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 18/01/2022, à 10:01

GuyAntonin

OCR tableau sous PDF vers tableur

Bonjour,

Pb : lire des tableaux (par ex. facture, relevé de compte, ...) pour les copier dans un tableur à fins d'exploitation.

Mes recherches sur le forum, la documentation, internet, n'ont rien donné de réellement satisfaisant. Je n'ai trouvé que des informations relativement vieilles et consacrées à l' "OCRisation" de textes vers Writer ou Word (cuneiform, ... ). Ma référence sous Windows était ABBY FineReader. J'ai bien vu l'existence de Wine pour faire tourner les logiciels Windows sous Ubuntu, mais j'ai cru comprendre que cette solution n'est pas très efficace.

Dans l'attente de vos conseils, avec mes remerciements,
Cordialement - Antonin


Patience et longueur de temps font plus que force ni que rage. (Jean de la Fontaine - Le Lion et le Rat)
Asus X705UAR - Intel® Core™ i3-8130U - CPU @ 2.20GHz × 4 - Mesa Intel® UHD Graphics 620 (KBL GT2) - mem : 3,7 GiB - DD 1,1 TB
Ubuntu 20.04.3 LTS - 64 bits - Gnome 3.36.8
Antonin des Cévennes d'Ardèche

Hors ligne

#2 Le 18/01/2022, à 11:26

lann

Re : OCR tableau sous PDF vers tableur

Il y a Libre OCR comme extension. Je ne sais pas ce que ça vaut : https://extensions.libreoffice.org/en/e … /libre-ocr

Hors ligne

#3 Le 18/01/2022, à 11:44

Compte supprimé

Re : OCR tableau sous PDF vers tableur

Bonjour,
Une autre solution pour exploiter ces données serait d'aller les chercher chez l'émetteur.
C'est possible pour de nombreuses banques. Pour les factures ça va dépendre des fournisseurs mais assez simple pour l'eau et l'électricité.

#4 Le 18/01/2022, à 12:55

Nasman

Re : OCR tableau sous PDF vers tableur

Reste à savoir si le fichier de départ est une image scannée ou un export en pdf.


PC fixe sous Bionic 64 bits et portable avec Focal 64 bits

Hors ligne

#5 Le 18/01/2022, à 13:12

Compte supprimé

Re : OCR tableau sous PDF vers tableur

ou un export en pdf.

Oui, là c'est plus facile.

#6 Le 18/01/2022, à 13:27

erresse

Re : OCR tableau sous PDF vers tableur

Bonjour,
Tu devrais essayer "gimagereader", disponible dans le dépôt universe, qui traite aussi bien les fichiers images que les fichiers pdf.
C'est une autre application de traitement OCR qui peut travailler sur des documents existants ou faire de l'acquisition. Je l'utilise sans problème avec différentes sources, le résultat est rarement parfait selon la netteté de l'original, il faut retoucher le texte produit, mais pour mon usage ponctuel, j'aprécie ce logiciel.


Plus de 50 ans d'informatique, ça en fait des lignes de commandes en console, mais on n'avait pas le choix...
Excellente raison pour, aujourd'hui qu'on le peut, utiliser au maximum les INTERFACES GRAPHIQUES !
Important : Une fois résolu, pensez à clore votre sujet en ajoutant [Résolu] devant le titre du 1er message, et un bref récapitulatif de la solution à la fin de celui-ci. Merci.

Hors ligne

#7 Le 22/01/2022, à 18:48

GuyAntonin

Re : OCR tableau sous PDF vers tableur

Bonjour,

En premier lieu, je vous présente mes excuses pour le délai avec lequel je vous réponds. La gestion du temps n'est pas toujours facile.

Iann a écrit :

Il y a Libre OCR comme extension. Je ne sais pas ce que ça vaut : https://extensions.libreoffice.org/en/e … /libre-ocr

J'ai suivi ton lien. Les 10 commentaires donnent une note de 1/5 à cette extension. Je n'ai pas insisté.

Nasman a écrit :

ou un export en pdf.

Justement, mon problème est de transporter les données d'un PDF vers un ODS.

Erresse a écrit :

Tu devrais essayer "gimagereader"

Essai réalisé. Résultat négatif. Les caractères sont bien reconnus, mais l'export en ODT a totalement perdu la mise en page tableau.

J'ai peur que mon problème ne trouve pas de solution sous Ubuntu.

Avec mes remerciements pour vos suggestions. Cordialement - Antonin


Patience et longueur de temps font plus que force ni que rage. (Jean de la Fontaine - Le Lion et le Rat)
Asus X705UAR - Intel® Core™ i3-8130U - CPU @ 2.20GHz × 4 - Mesa Intel® UHD Graphics 620 (KBL GT2) - mem : 3,7 GiB - DD 1,1 TB
Ubuntu 20.04.3 LTS - 64 bits - Gnome 3.36.8
Antonin des Cévennes d'Ardèche

Hors ligne

#8 Le 22/01/2022, à 19:28

inbox

Re : OCR tableau sous PDF vers tableur

Salut,

À ma connaissance, l'OCR (Optical Character Recognition) reconnaît les caractères. Les tableaux ne sont pas des caractères.

Tu devrais donc essayer d'enregistrer ton texte océrisé dans un fichier texte. Ensuite, il faut, dans ce fichier vérifier qu'il y a bien des séparateurs (espaces, tirets, virgules, etc) entre les différents champs. Ceci fait, tu peux importer ton fichier dans Calc.

A+


Un problème résolu ? Indiquez le en modifiant le titre du sujet.

Hors ligne

#9 Le 22/01/2022, à 22:04

Compte supprimé

Re : OCR tableau sous PDF vers tableur

Tamarou au N°3 a écrit :

Une autre solution pour exploiter ces données serait d'aller les chercher chez l'émetteur.
C'est possible pour de nombreuses banques. Pour les factures ça va dépendre des fournisseurs mais assez simple pour l'eau et l'électricité.

Cela fait un peu "dis-moi de quoi tu as besoin et je te dirai comment t'en passer" tongue
Mais selon de quelles sources il s'agit, c'est une solution souvent plus simple. Tu as un exemple anonymisé de document que tu veux exploiter ?