Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

cyberic · Le 04/05/2012, à 15:30

Je trouve que LibreOffice livrée avec la 12.04 fonctionne vraiment très bien.:)

Sorbus · Le 06/12/2012, à 21:56

Salut les amis,

Je viens d'installer un nouvel ordi avec Ubuntu 12.04 LTS. J'ai installé tesseract 3.02 par synaptic, et xsane2tess en installant moi-même le script à la main comme indiqué dans la documentation Ubuntu francophone sur xsane2tess. J'ai suivi les autres consignes de cette doc pour l'utilisation de xsane2tess, puis j'ai testé l'ocr : tout fonctionne parfaitement. La doc sur xsane2tess est donc toujours à jour.

J'ai lu les messages depuis mon dernier passage par ici... Je découvre surtout la nouveauté de OCRFeeder... Peut-être testerai-je, même si je suis très satisfait de la solution tesseract + xsane2tess, à laquelle je suis habitué... L'intérêt de OCRFeeder est peut-être de sortir des fichiers odt...

P.S. : le message précédent a-t-il un rapport avec l'OCR ? Est-ce qu'il y aurait maintenant un système d'OCR intégré à LibreOffice ?

Dernière modification par Sorbus (Le 06/12/2012, à 21:57)

ben.gun · Le 02/03/2013, à 21:01

Bonjour,
après avoir essayé Gocr et Cuneiform je trouve également que cette combinaison (Xsane2 + tesseract) fonctionne le mieux. Je teste OCRfeeder mais il n'arrive pas à numériser jusqu'à présent... à voir.

Freedomsha · Le 08/02/2014, à 13:58

Sous Ubuntu 12.04.

Bon j'ai essayé OCRFeeder, obtenir un fichier odt à partir d'un pdf (le rêve!)

Donc j'ouvre OCRFeeder, Fichier/Importer un pdf. Après plusieurs minutes, plantage.
Après quelques lectures, il nécessite d'utiliser Gimp pour avoir des fichiers Tiff.
L'import du fichier pdf fait planter Gimp aussi. Il ne me permettra que de transformer 10 pages par 10 pages.
Soit 1 image .Tiff ≃20Mo /page, donc du Lourd.
J'importe ces 10 pages dans OCRFeeder, je ne sais plus si c'est l'import ou la reconnaissance qui a planté, en tout cas, il a fallu que je passe à 5 pages pour obtenir un résultat:
des fichiers odt de 5 pages.
positionnement des cases presque identique à la reconnaissance de caractère
avec les images au bon endroit
petit hic:
la mise en page sera à refaire presque totalement
trop de cases dans le fichier odt.
la police avait changé à cause de mes modifications.
Conclusion: J'avais encore pas mal de boulot pour obtenir un odt correct. J'étais limité par la place prise par les images Tiff sachant que le livre fait 230 pages!

j'essais gImageReader, bof, rien de plus, résultat en txt, aucun intérêt! Des plantages!

J'essais YAGF puisqu'ils en parlent sur Ubuntu.
Vu que je m'étais fait la main avec OCRFeeder, la prise en main est facile, graphiquement, il est beau.
Là, 10 pages Tiff fonctionnent mais le résultat est en txt.
Bon quitte à refaire la mise en page utiliser un txt sera plus simple que de transformer un odt.
Après avoir reconnu les 90 tiff qui me restaient. J'essais l'import de pdf, il a besoin d'un dossier vide, mais je dois importer seulement 5 pages pour éviter qu'il plante.
Heureusement, j'obtiens des fichiers légers png, il bug un peu après l'import, où il m'affiche plusieurs fois les mêmes pages. Je préfère le redémarrer.
Le résultat à partir de fichiers png semble aussi bon qu'avec les tiff.

Conclusion: Pour gagner en nombre de manipulation, je vais continuer avec YAGF, tant pis pour l'odt.
Bien faire attention que la première prise en compte pour l'ordre des cases est de gauche à droite puis du haut vers le bas. Donc veiller à ce que votre 1ère case soit la plus à gauche, les suivantes de plus en plus à droite.
OCRFeeder est à suivre car le seul à pouvoir obtenir des fichiers pour office directement.(!!!la suite de la discution me contredira puisqu'il existe OCRector !!!)
Tout s'est fait avec Tesseract.

Dernière modification par Freedomsha (Le 09/02/2014, à 13:25)

Ner0lph · Le 08/02/2014, à 17:34

Pour info, Tesseract ne sait pas reproduire la mise en forme : il ne sort que du texte ou une sorte de HTML dans lequel des balises span indique la position du caractère ou du mot reconnu dans l'image originale.

Ceci explique donc cela.

Dernière modification par Ner0lph (Le 08/02/2014, à 17:35)

Freedomsha · Le 08/02/2014, à 22:54

En tout cas des 4 (Tesseract, OCRad, GOCR et Cuneiform) avec OCRFeeder, Tesseract reste le seul à reconnaître les bons sauts de ligne.
OCRFeeder a du mal à reconnaître les colonnes. YAGF les reconnaît mais ne les met pas forcement dans l'ordre approprié.
Tesseract dans YAGF ne fait pas les sauts de ligne!
Honnêtement, pour un résultat de qualité de moins de 10 pages, je conseille OCRFeeder, mais pour énormément de page je passerais à YAGF qui utilise des fichiers beaucoup plus légers.

Dernière modification par Freedomsha (Le 08/02/2014, à 23:09)

libelul · Le 09/02/2014, à 09:56

J'utilise ocrector qui ne fait pas le scan, il faut lui fournir les images mais par contre il fusionne les pages OCRisées du projet en odt.
Le choix du moteur OCR est comme d'habitude cuneiform ou tesseract.
Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.

Dernière modification par libelul (Le 19/02/2014, à 07:11)

Freedomsha · Le 09/02/2014, à 13:21

Merci, libelul, je viens de le tester pour voir. Il n'était pas dans les dépôts.
premier étonnement, pas de zonage! il travaille sur l'image entière.
Tesseract a eu une bonne reconnaissance des colonnes et des sauts de ligne.(cuneiform n'a pas reconnu les saut de ligne)
L'enregistrement est vraiment intéressant, on a le choix entre ODF, html ou text.
Par contre, les images ne sont pas prises en compte pour le résultat final.(ce qui aurait été intéressant pour les mise en page ODF et html)
Le résultat final reste très brut.

libelul a écrit :

Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.

C'est vrai que les mots soulignés posent quelques problèmes.

libelul · Le 09/02/2014, à 16:40

Freedomsha a écrit :

pas de zonage! il travaille sur l'image entière

Effectivement. Sur le site ils disent qu'il est préférable de faire un pré-traitement avec par exemple scantailor.
Je le conseille également, la reconnaissance est bien meilleure !

nknico · Le 08/03/2014, à 10:50

Bonjour à tous,

Je me sert très souvent de l'interface OCR feeder pour faire de la reconnaissance de caratères avec le moteur tesseract.

Seulement depuis que je suis passé à 13.10, la version de ocrfeeder des dépôts est horriblement buggée, ça freeze quand je veux importer un pdf, ça freeze dès que je veux toucher une option de l'interface ou un paramètres du moteur.

J'arrive à m'en servir quand même en transformant mes pdf en jpg auparavant, mais c'est tout de même pénible.

Vous avez une idée de comment régĺer le problème ? J'ai essayé de passer pas gscan2pdf mais il ne trouve pas le moteur tesseract installé...

Merci d'avance !

nknico · Le 11/03/2014, à 12:41

Personne n'est en mesure de m'aider ? C'est vraiment un problème important, ocrfeeder est un de mes outils de travail principaux.

nknico · Le 20/03/2014, à 18:09

up

Fgermin · Le 16/04/2014, à 18:55

Bonjour

Je recherche un développeur avec une bonne connaissance d'un OCR en opensource pour le développement d'une application.
Si intéressé, pouvez-vous me contacter : 0676282477;
mercu

Didier-T · Le 04/06/2014, à 17:43

Bonjour a tous,
je viens de tester OCRFeeder, au début j'ai pensé que sa ne fonctionnait pas, mais en fait le soucis viens de la reconnaissance du français, le paquet qui vas bien n'étant pas installé.
il s'agit du paquet suivant

tesseract-ocr-fra

Maintenant la reconnaissance ce fait sans soucis.

alexiei13 · Le 06/06/2014, à 01:03

Bonjour à tous,
Je suis tout nouveau sur ce forum et c'est mon tout premier message!
Au mois de janvier dernier, j'ai fat une mauvaise manip avec un fichier open office hyper important et je me suis retrouvé avec plein de dièses partout au lieu de mes 100 et quelques pages de textes.
Avec la fac et mes examens de premier et second semestre, j'ai arrêté de m'arracher les cheveux et j'ai laissé tomber à trouver une solution mais maintenant que j'ai un peu plus de temps devant moi (je suis en vacances, enfin! ;-) ), eh bien, je m'arrache de nouveau les cheveux avec les racines!! pour moi, c'est inenvisageable que j'ai perdu ce texte, ce n'est pas possible
Si quelqu'un pouvait m'aider, je lui en serai éternellement reconnaissant
C'est un fichier .odt
Je dois préciser que je n'y connais absolument rien en informatique, plus nul que moi vous mourrez donc je vais essayer de m'adapter au jargon informatique si quelqu'un m'aide...
Merci d'avance :-)

Robert Algoud · Le 06/06/2014, à 08:33

Salut

alexiel13 : il faudrait mieux ouvrir un nouveau sujet pour ce problème et donner des précisions sur ce qui s'est passé pour en arriver là.

Concernant OCRFeeder, j'ai installé Tesseract mais je n'arrive pas à l'intégrer à OCRFeeder qui ne jure que par Cunéiforme.

Vista · Le 10/06/2014, à 10:19

Bonjour,

existe t'il un logiciel (graphique) qui permet de faire apprendre au logiciel comment scanné un type de facture pour qu'il reconnaise tous seul les différents champs de la facture (fournisseurn, montant et autre champ ....).
a partir d'un scan ?

et 'alimenter un fichier csv ?

merci à vous.

gotgot · Le 25/06/2017, à 00:05

Bon le sujet de OCR est des plus complexe mais une chose est sur.
C'est le bordel dans le fil de documentation !
Je pense qu'il y a trop de choix et pas assez de précision note etc...
On reste sur la même problématique que tant que le petit +1 n'est pas intégré dans les posts de forum on perd beaucoup de temps a trié l'information pertinente du questionnement sans fond.
Quelqu'un a connaissance de l'architecture de la base : libgocr ??
Est-elle utiliser par plusieurs logiciels OCR différents ?

moko138 · Le 25/06/2017, à 05:38

gotgot a écrit :

On reste sur la même problématique que tant que le petit +1 n'est pas intégré dans les posts de forum

Je n'ai rien compris. Peux-tu préciser ton idée s'il te plaît ?

===========

Quelqu'un a connaissance de l'architecture de la base : libgocr ??

As-tu consulté

apt-cache show libgocr*

?
- -

gotgot a écrit :

Est-elle utiliser par plusieurs logiciels OCR différents ?

Tu procèdes dans l'autre sens :

Dans un premier temps, pour dégrossir :

apt-cache show chaque_logiciel_OCR_qui_t'intéresse | grep libgocr

Quand le retour est non vide, c'est que libgocr est mentionné (probablement dans les dépendances, mais pas nécessairement).

Ensuite, parmi les commandes ayant fourni un retour non vide, tu accèdes aux précisions par

apt-cache show chaque_logiciel_OCR_trouvé_précédemment

Le Monolecte · Le 25/06/2017, à 19:57

En parlant de solution OCR qui marche bien (et qui range tes documents à ta place en plus), j'ai essayé et adopté Paperwork.

mohican · Le 12/09/2017, à 22:52

OCRFeeder, après installation ne se lance pas sous Linux Mint 18 (pas testé sous Ubuntu 16.04).

Solution : installer l'éditeur de menu alacarte
Éditer le raccourci de OCRFeeder : remplacer la commande "ocrfeeder -i %f" par "ocrfeeder"

garykidall · Le 07/04/2021, à 19:07

Hello,
je viens de créer un diagramme dans Open Office Writer, mais malheureusement il s'efface et on lit juste Objet 1, il faut cliquer du droit et éditer, mais dès que je re-clique en dehors il s'efface à nouveau ....
est-ce que quelqu'un pourrait me dire la manipulation à effectuer parce que là c'est l'angoisse .... il faut que je boucle mon mémoire ...
merci d'avance

garykidall · Le 08/04/2021, à 13:43

garykidall a écrit :

Hello,
je viens de créer un diagramme dans Open Office Writer, mais malheureusement il s'efface et on lit juste Objet 1, il faut cliquer du droit et éditer, mais dès que je re-clique en dehors il s'efface à nouveau ....
est-ce que quelqu'un pourrait me dire la manipulation à effectuer parce que là c'est l'angoisse .... il faut que je boucle mon mémoire ...
merci d'avance

c'est marrant on voit le graphique appaitre quand on passe en mode aperçu ...????

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#501 Le 04/05/2012, à 15:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#502 Le 06/12/2012, à 21:56

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#503 Le 02/03/2013, à 21:01

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#504 Le 08/02/2014, à 13:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#505 Le 08/02/2014, à 17:34

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#506 Le 08/02/2014, à 22:54

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#507 Le 09/02/2014, à 09:56

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#508 Le 09/02/2014, à 13:21

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#509 Le 09/02/2014, à 16:40

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#510 Le 08/03/2014, à 10:50

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#511 Le 11/03/2014, à 12:41

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#512 Le 20/03/2014, à 18:09

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#513 Le 16/04/2014, à 18:55

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#514 Le 04/06/2014, à 17:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#515 Le 06/06/2014, à 01:03

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#516 Le 06/06/2014, à 08:33

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#517 Le 10/06/2014, à 10:19

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#518 Le 25/06/2017, à 00:05

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#519 Le 25/06/2017, à 05:38

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#520 Le 25/06/2017, à 19:57

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#521 Le 12/09/2017, à 22:52

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#522 Le 07/04/2021, à 19:07

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#523 Le 08/04/2021, à 13:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums