[astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

jvcharles · Le 20/12/2011, à 17:20

ramold a écrit :

tu peux rajouter dans les moins de free ocr, qu'en plus du captcha, on ne peut faire reconnaître que dix pages ( de 2m.o maxi). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer.

c'est fait, pour captcha c'était déjà là.

tuxmarc · Le 20/12/2011, à 18:02

Bonjour à tous.
Pour moi Xsane n'a pas été facile à comprendre au départ et jusqu'à aujourd'hui, je cherchais vainement comment faire marcher l'OCR.
Ça y est!
Je vais me coucher moins bête que je me suis levé !
J'ai mis l'option "cuneiform -l fra" dans la configuration.
Après j'ai encore cherché comment on déclenche cette bourrique d'OCR jusqu'à ce que je considère les options et que j'ai l'idée de changer "copier" en "visIonneuse" et ensuite j'ai vu le bouton !!
Premier essai en 150 dpi et résultat pas fameux et je me suis rappelé qu'il était recommandé de scanner en 300 dpi.
Le résultat ! IM-PE-CCA-BLE
Ce qui est stupéfiant, c'est la vitesse d'analyse et de conversion ! Instantané !
Merci pour tous ces conseils.

mloupiot · Le 20/12/2011, à 18:36

Bonsoir,
Au lieu de mettre "visionneuse" tu peux aussi mettre "enregistrer" et ton fichier est créé automatiquement.

Mathieu147 · Le 20/12/2011, à 19:03

ramold a écrit :

Pour moi, le résultat est vraiment pas terrible.
Je n'arrive pas à comprendre pourquoi.

Tu pourrais essayer de nous donner un de tes textes scannés, qu'on essaie.

tuxmarc · Le 21/12/2011, à 19:13

mloupiot, j'ai besoin de tes lumières, car si j'ai bien obtenu des images dans le temps, ensuite là je cale pour savoir comment faire pour demander la reconnaissance de caractères.

ramold a écrit :
Pour moi, le résultat est vraiment pas terrible.
Je n'arrive pas à comprendre pourquoi.

ramold, moi aussi j'i eu des résultats pas terribles et j'ai fini par trouver le truc:
-passer en résolution plus forte, 150 dpi = caca, 300 dpi nettement mieux, 400 dpi parfait
Je me suis rendu compte qu'il y a intérêt à bien aligner la feuille ou le journal sur le bord du scanner, sinon un peu de travers ça fausse l'analyse.
Je me suis rendu compte qu'en scannant un article, il y a intérêt à bien isoler la partie intéressante (un coup de Gimp), sinon les caractères voisins s'invitent n'importe comment et n'importe où.

mloupiot · Le 21/12/2011, à 20:42

@ tuxmarc
Voici ma configuration dans Préférences→OCR :

Dans le logiciel, pour enregistrer, j'ai à côté de la disquette : /home/mon_logging/dossier_de_destination/Docxxx.xxx
Attention : pas d'espaces dans les noms de dossier ou de fichier, par contre, les caractères accentués passent.
le pas est à 1

Pour la reconnaissance de caractères, je choisis
-Type : TEXT et à côté de la disquette ça devient : /home/mon_logging/dossier_de_destination/Docxxx.txt
-Mode : trait
-Gamma à 1

Ai-je répondu à ta question ?

tuxmarc · Le 22/12/2011, à 11:59

@mloupiot :
Réponse on ne peut plus parfaite
Pour la config, c'est bien ça que j'ai enregistré.
Le chaînon manquant, c'était de mettre "text" dans Type et là maintenant ça a fait tilt !
J'ai fait un essai en scannant quelque chose que j'avais imprimé, en mode trait et en mode gris pour comparer.
Le résultat est meilleur en mode trait et au passage, en énorme, j'ai pu voir les petites bavures que fait une jet d'encre et qui perturbent l'analyse.
Il y a un détail que je ne comprends pas : pas moyen d'avoir l'aide, la doc en html est absente.
J'ai vérifié dans /usr/doc/xsane et étrangement pas de fichier d'aide.
Si j'avais été plus malin, il y a bien de la doc sur Ubuntu.fr !!!

Merci pour le coup de main et passe un joyeux noël.

mloupiot · Le 22/12/2011, à 14:48

Content de t'avoir aidé, joyeux noël à toi aussi.

pierpiotr · Le 26/03/2014, à 15:05

Bonjour,
Je reprends ce fil en esperant qu'il soit encore actif. En tout cas l'OCR sera toujours utile.
Bon, mon pb est que les @ et les g disparaissent. J'essaie de scanner des listes d'emails dans un tableau dont j'ai isolé la colonne.
Il faudrait peut être modifier les options dans la configuration après cuneiform -l fra ...?

gl38 · Le 26/03/2014, à 20:37

As-tu essayé avec tesseract ?
Cordialement,
Guy

pierpiotr · Le 27/03/2014, à 02:08

Pas encore, le fil icifait plutôt la part belle à cuneiform...
Donc je vais essayer.

pierpiotr · Le 27/03/2014, à 16:31

Bonjour Guy,
Tesseract donne de meilleurs résultats en effet avec 300ppi. J'ai poussé à 600 c'est mieux mais pas parfait (quelques @ et g passent à l'as quand mm et des caractères exotiques s'introduisent...).
J'ai donc essayé à 1200 mais là c'est la cata. 600 reste la meilleure option.
Merci en tout cas, cela me fait gagner du temps.

agensbur · Le 08/04/2014, à 22:13

Je tombe sur ce fil : merci pour la configuration exacte de l'intégration de cunéiform.

J'avais testé il y a longtemps et était resté septique. En fait, convenablement réglé, cela fonctionne bien, c'est léger et rend des vrais services .

(il vaut mieux isoler un bloc de texte à "OCEériser" lors de l'acquisition, ce peut être toute une page mais avec xsane pas question de faire de multi-sélection ni d'automatiser des enchaînements de blocs...Le couple xsane/cuneiform reste incomplet comparé aux poids lourds du "marché" (non portés sous Linux), mais la reconnaissance de caractères proprement dite est vraiment performante et mon windows en dual boot va finir par ne plus avoir aucune raison d'être.

Dernière modification par agensbur (Le 08/04/2014, à 22:16)

moissan · Le 06/06/2014, à 18:48

merci pour m'avoir fait decouvrir cuneiforme

pas besoin de xsane une image recadré dans colourpaint pour ne garder que le texte a lire suffit

~/Documents/cuneiform$ cuneiform -l fra image.png

inutile de preciser le fichier destination , il crée un cuneiform-out.txt

pas besoin de mettre en TIFF comme il a été dit au debut : en png ça marche

par contre ça ne marche pas si les caractere sont trop petit : une copie d'ecran avec texte parfaitement contrasté ne passe pas du tout : un seul caractère reconnu : en multipliant la dimension par 2 , le texte est reconnu en entier

Dernière modification par moissan (Le 06/06/2014, à 18:52)

jacksonV · Le 08/07/2014, à 10:30

+abo :-)

L'Africain · Le 14/11/2014, à 12:18

bonjour,
Ce petit message pour vous partager un problème récent, j'utilise cuneiform depuis des années sans aucune difficultés. J'ai chipoté sur des fichiers que j'ai converti en utf-8 ( je sais pas si ça à un lien) et depuis lorsque je scanne avec xsane et l'option cuneiform -l fra le résultat c'est que mon fichier txt n'affiche plus les accents, mais un truc comme ça:

Ã mes chers fils John Vaughn, ministre gÃ©nÃ©ral de l'Ordre des FrÃšres mineurs; Vital Bommarco, ministre gÃ©nÃ©ral de l'Ordre des FrÃšres mineurs conventuels; Flavio Carraro, ministre gÃ©nÃ©ral de l'Ordre des FrÃšres mineurs capucins; Roland Faley, ministre

Par contre avec Yagf il n'y a pas de problème!
SI quelqu'un a une explication?
merci pour votre aide.

Dernière modification par L'Africain (Le 14/11/2014, à 12:23)

gl38 · Le 14/11/2014, à 14:43

Ce que tu montres c'est de l'utf8 affiché par un programme qui ne sait pas comment l'afficher.
Avec yagf, on peut choisir entre cuneiform et tesseract.
Cordialement,
Guy

L'Africain · Le 08/12/2015, à 17:50

Bonjour à tous,
Soudainement yagf s'est mis à ne plus fonctionner, avec cuneiform il me retourne l'erreur :

The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/cyrille/.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)

Avec tesseract:

The system said: Tesseract Open Source OCR Engine v3.03 with Leptonica
Error in pixReadStreamBmp: bmp(1) read fail
Error in pixReadStream: bmp: no pix returned
Error in pixRead: pix not read
Error in pixGetInputFormat: pix not defined
Reading input.bmp as a list of filenames...
Error in fopenReadStream: file not found
Error in pixRead: image file not found
Image file BM cannot be read!
Error during processing.

SI je tente cuneiform directement dans le terminal j'ai :

The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/cyrille/.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)

J'ai réinstallé imagemagic puisque le problème semble à ce niveau rien n'y fait.
Je pense que c'est lié à l’installation d'une bibliothèque hors dépôt mais je sais pas laquelle?
Merci pour votre aide.

moko138 · Le 08/12/2015, à 20:33

Et si tu commences par convertir le .bmp en .png (ou autre format habituel),

convert mon-fichier.bmp mon-fichier.png

le problème persiste-t-il ?

L'Africain · Le 08/12/2015, à 21:03

Bonjour Moko,
Le fichier original est un jpeg
Par contre je ne sais pas pourquoi, en retentant l'opération avec diverses options, ça fini par fonctionner, mais pas du premier coup (je parle uniquement pour yagf).

moko138 · Le 09/12/2015, à 05:04

Jpeg, je veux bien, mais tes trois retours partent d'une entrée en .bmp :

L'Africain a écrit :

Soudainement yagf s'est mis à ne plus fonctionner, avec cuneiform il me retourne l'erreur :
The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/.../.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)
Avec tesseract:
Reading input.bmp as a list of filenames...
SI je tente cuneiform directement dans le terminal j'ai :
The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/cyrille/.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)

Il me semble qu'il y a là une piste à creuser.

L'Africain · Le 09/12/2015, à 22:10

En effet il y a bien un fichier bmp. Il semble qu'image magic fasse une conversation dans ce format avant de le convertir en texte. Mais à la base il s'agit bien de JPEG. (J'ai vu un fichier bmp apparaître dans le dossier cache de yagf pendant la convertion)

Dernière modification par L'Africain (Le 09/12/2015, à 22:13)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#76 Le 20/12/2011, à 17:20

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#77 Le 20/12/2011, à 18:02

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#78 Le 20/12/2011, à 18:36

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#79 Le 20/12/2011, à 19:03

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#80 Le 21/12/2011, à 19:13

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#81 Le 21/12/2011, à 20:42

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#82 Le 22/12/2011, à 11:59

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#83 Le 22/12/2011, à 14:48

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#84 Le 26/03/2014, à 15:05

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#85 Le 26/03/2014, à 20:37

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#86 Le 27/03/2014, à 02:08

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#87 Le 27/03/2014, à 16:31

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#88 Le 08/04/2014, à 22:13

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#89 Le 06/06/2014, à 18:48

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#90 Le 08/07/2014, à 10:30

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#91 Le 14/11/2014, à 12:18

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#92 Le 14/11/2014, à 14:43

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#93 Le 08/12/2015, à 17:50

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#94 Le 08/12/2015, à 20:33

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#95 Le 08/12/2015, à 21:03

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#96 Le 09/12/2015, à 05:04

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

#97 Le 09/12/2015, à 22:10

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Pied de page des forums