Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#76 Le 20/12/2011, à 16:20

jvcharles

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

ramold a écrit :

tu peux rajouter dans les moins de free ocr, qu'en plus du captcha, on ne peut faire reconnaître que dix pages ( de 2m.o maxi). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer.

c'est fait, pour captcha c'était déjà là.


Debian Stable Sid/rc-buggy - Gnome/Kde  Tails LiveUsbPersistance  UBports/Ubuntu-Touch 2022/08/19 (Pixel 3a)
Windows 10/Facebook supprimer 2019/02/02   Compte Google supprimé 2023/02/15

Hors ligne

#77 Le 20/12/2011, à 17:02

tuxmarc

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour à tous.
Pour moi Xsane n'a pas été facile à comprendre au départ et jusqu'à aujourd'hui, je cherchais vainement comment faire marcher l'OCR.
Ça y est!
Je vais me coucher moins bête que je me suis levé !
J'ai mis l'option "cuneiform -l fra" dans la configuration.
Après j'ai encore cherché comment on déclenche cette bourrique d'OCR jusqu'à ce que je considère les options et que j'ai l'idée de changer "copier" en "visIonneuse" et ensuite j'ai vu le bouton !!
Premier essai en 150 dpi et résultat pas fameux et je me suis rappelé qu'il était recommandé de scanner en 300 dpi.
Le résultat ! IM-PE-CCA-BLE
Ce qui est stupéfiant, c'est la vitesse d'analyse et de conversion ! Instantané !
Merci pour tous ces conseils.


Vive Richard Stalmann, Linus Torvalds, et tous les fondus de Linux.
De l'Ordinosaure fait à 90% de récup, à deux portables LDLC,  neufs sans système et une carte mère sans boitier, tous libres !!
Parrain Linux sur www.parrain-linux.com et www.parrains.linux.free.fr

Hors ligne

#78 Le 20/12/2011, à 17:36

mloupiot

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonsoir,
Au lieu de mettre "visionneuse" tu peux aussi mettre "enregistrer" et ton fichier est créé automatiquement.

Hors ligne

#79 Le 20/12/2011, à 18:03

Mathieu147

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

ramold a écrit :

Pour moi, le résultat est vraiment pas terrible.
Je n'arrive pas à comprendre pourquoi.

Tu pourrais essayer de nous donner un de tes textes scannés, qu'on essaie.


Pffff…

Hors ligne

#80 Le 21/12/2011, à 18:13

tuxmarc

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

mloupiot, j'ai besoin de tes lumières, car si j'ai bien obtenu des images dans le temps, ensuite là je cale pour savoir comment faire pour demander la reconnaissance de caractères.

ramold a écrit :

    Pour moi, le résultat est vraiment pas terrible.
    Je n'arrive pas à comprendre pourquoi.

ramold, moi aussi j'i eu des résultats pas terribles et j'ai fini par trouver le truc:
-passer en résolution plus forte,  150 dpi = caca, 300 dpi nettement mieux, 400 dpi parfait
Je me suis rendu compte qu'il y a intérêt à bien aligner la feuille ou le journal sur le bord du scanner, sinon un peu de travers ça fausse l'analyse.
Je me suis rendu compte qu'en scannant un article, il y a intérêt à bien isoler la partie intéressante (un coup de Gimp), sinon les caractères voisins s'invitent n'importe comment et n'importe où.


Vive Richard Stalmann, Linus Torvalds, et tous les fondus de Linux.
De l'Ordinosaure fait à 90% de récup, à deux portables LDLC,  neufs sans système et une carte mère sans boitier, tous libres !!
Parrain Linux sur www.parrain-linux.com et www.parrains.linux.free.fr

Hors ligne

#81 Le 21/12/2011, à 19:42

mloupiot

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

@ tuxmarc
Voici ma configuration dans Préférences→OCR :
1324491354.png

Dans le logiciel, pour enregistrer, j'ai à côté de la disquette : /home/mon_logging/dossier_de_destination/Docxxx.xxx
Attention : pas d'espaces dans les noms de dossier ou de fichier, par contre, les caractères accentués passent.
le pas est à 1

Pour la reconnaissance de caractères, je choisis
-Type : TEXT et à côté de la disquette ça devient : /home/mon_logging/dossier_de_destination/Docxxx.txt
-Mode : trait
-Gamma à 1

Ai-je répondu à ta question ?

Hors ligne

#82 Le 22/12/2011, à 10:59

tuxmarc

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

@mloupiot :
Réponse on ne peut plus parfaite smile
Pour la config, c'est bien ça que j'ai enregistré.
Le chaînon manquant, c'était de mettre "text" dans Type et là maintenant ça a fait tilt !
J'ai fait un essai en scannant quelque chose que j'avais imprimé, en mode trait et en mode gris pour comparer.
Le résultat est meilleur en mode trait et au passage, en énorme, j'ai pu voir les petites bavures que fait une jet d'encre et qui perturbent l'analyse.
Il y a un détail que je ne comprends pas : pas moyen d'avoir l'aide, la doc en html est absente.
J'ai vérifié dans /usr/doc/xsane et étrangement pas de fichier d'aide.
Si j'avais été plus malin, il y a bien de la doc sur Ubuntu.fr !!!

Merci pour le coup de main et passe un joyeux noël.


Vive Richard Stalmann, Linus Torvalds, et tous les fondus de Linux.
De l'Ordinosaure fait à 90% de récup, à deux portables LDLC,  neufs sans système et une carte mère sans boitier, tous libres !!
Parrain Linux sur www.parrain-linux.com et www.parrains.linux.free.fr

Hors ligne

#83 Le 22/12/2011, à 13:48

mloupiot

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Content de t'avoir aidé, joyeux noël à toi aussi.

Hors ligne

#84 Le 26/03/2014, à 14:05

pierpiotr

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour,
Je reprends ce fil en esperant qu'il soit encore actif. En tout cas l'OCR sera toujours utile.
Bon, mon pb est que les @ et les g disparaissent. J'essaie de scanner des listes d'emails dans un tableau dont j'ai isolé la colonne.
Il faudrait peut être modifier les options dans la configuration après cuneiform -l fra ...?


Kubuntu 22.04 LTS sur DELL Inspiron 7490 - i7 - RAM 16Go - SSD 500Go - nVidia GeForce MX250
Au bureau : Kubuntu 20.04 LTS  (64b) - PC tour LDLC PC Zi-Artist - i7-3770 @ 3.4/3.9Ghz - RAM 16Go - SSD 120Go - DD 1To - nVidia GEForce GT 640 1Go

Hors ligne

#85 Le 26/03/2014, à 19:37

gl38

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

As-tu essayé avec tesseract ?
Cordialement,
Guy

Hors ligne

#86 Le 27/03/2014, à 01:08

pierpiotr

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Pas encore, le fil icifait plutôt la part belle à cuneiform...
Donc je vais essayer.


Kubuntu 22.04 LTS sur DELL Inspiron 7490 - i7 - RAM 16Go - SSD 500Go - nVidia GeForce MX250
Au bureau : Kubuntu 20.04 LTS  (64b) - PC tour LDLC PC Zi-Artist - i7-3770 @ 3.4/3.9Ghz - RAM 16Go - SSD 120Go - DD 1To - nVidia GEForce GT 640 1Go

Hors ligne

#87 Le 27/03/2014, à 15:31

pierpiotr

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour Guy,
Tesseract donne de meilleurs résultats en effet avec 300ppi. J'ai poussé à 600 c'est mieux mais pas parfait (quelques @ et g passent à l'as quand mm et des caractères exotiques s'introduisent...).
J'ai donc essayé à 1200 mais là c'est la cata. 600 reste la meilleure option.
Merci en tout cas, cela me fait gagner du temps.


Kubuntu 22.04 LTS sur DELL Inspiron 7490 - i7 - RAM 16Go - SSD 500Go - nVidia GeForce MX250
Au bureau : Kubuntu 20.04 LTS  (64b) - PC tour LDLC PC Zi-Artist - i7-3770 @ 3.4/3.9Ghz - RAM 16Go - SSD 120Go - DD 1To - nVidia GEForce GT 640 1Go

Hors ligne

#88 Le 08/04/2014, à 21:13

agensbur

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Je tombe sur ce fil : merci pour la configuration exacte de l'intégration de cunéiform.

J'avais testé il y a longtemps et était resté septique. En fait, convenablement réglé, cela fonctionne bien, c'est léger et rend des vrais services .

(il vaut mieux isoler un bloc de texte à "OCEériser" lors de l'acquisition, ce peut être toute une page mais avec xsane pas question de faire de multi-sélection ni d'automatiser des enchaînements de blocs...Le couple xsane/cuneiform reste incomplet comparé aux poids lourds du "marché" (non portés sous Linux), mais la reconnaissance de caractères proprement dite est vraiment performante et mon windows en dual boot va finir par ne plus avoir aucune raison d'être.

Dernière modification par agensbur (Le 08/04/2014, à 21:16)

Hors ligne

#89 Le 06/06/2014, à 17:48

moissan

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

merci pour m'avoir fait decouvrir cuneiforme

pas besoin de xsane une image recadré dans colourpaint pour ne garder que le texte a lire suffit

~/Documents/cuneiform$ cuneiform -l fra image.png

inutile de preciser le fichier destination , il crée un cuneiform-out.txt

pas besoin de mettre en TIFF comme il a été dit au debut : en png ça marche

par contre ça ne marche pas si les caractere sont trop petit  : une copie d'ecran  avec texte parfaitement contrasté ne passe pas du tout : un seul caractère reconnu : en multipliant la dimension par 2 , le texte est reconnu en entier

Dernière modification par moissan (Le 06/06/2014, à 17:52)

Hors ligne

#90 Le 08/07/2014, à 09:30

jacksonV

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

+abo :-)

Hors ligne

#91 Le 14/11/2014, à 11:18

L'Africain

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

bonjour,
Ce petit message pour vous partager un problème récent, j'utilise cuneiform depuis des années sans aucune difficultés. J'ai chipoté sur des fichiers que j'ai converti en utf-8 ( je sais pas si ça à un lien) et depuis lorsque je scanne avec xsane et l'option cuneiform -l fra le résultat c'est que mon fichier txt n'affiche plus les accents, mais un truc comme ça:

À mes chers fils John Vaughn, ministre général de l'Ordre des FrÚres mineurs; Vital Bommarco, ministre général de l'Ordre des FrÚres mineurs conventuels; Flavio Carraro, ministre général de l'Ordre des FrÚres mineurs capucins; Roland Faley, ministre

Par contre avec Yagf il n'y a pas de problème!
SI quelqu'un a une explication?
merci pour votre aide.

Dernière modification par L'Africain (Le 14/11/2014, à 11:23)


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#92 Le 14/11/2014, à 13:43

gl38

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Ce que tu montres c'est de l'utf8 affiché par un programme qui ne sait pas comment l'afficher.
Avec yagf, on peut choisir entre cuneiform et tesseract.
Cordialement,
Guy

Hors ligne

#93 Le 08/12/2015, à 16:50

L'Africain

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour à tous,
Soudainement yagf s'est mis à ne plus fonctionner, avec cuneiform il me retourne l'erreur :

The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/cyrille/.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)

Avec tesseract:

The system said: Tesseract Open Source OCR Engine v3.03 with Leptonica
Error in pixReadStreamBmp: bmp(1) read fail
Error in pixReadStream: bmp: no pix returned
Error in pixRead: pix not read
Error in pixGetInputFormat: pix not defined
Reading input.bmp as a list of filenames...
Error in fopenReadStream: file not found
Error in pixRead: image file not found
Image file BM cannot be read!
Error during processing.

SI je tente cuneiform directement dans le terminal j'ai :

The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/cyrille/.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)

J'ai réinstallé imagemagic puisque le problème semble à ce niveau rien n'y fait.
Je pense que c'est lié à l’installation d'une bibliothèque hors dépôt mais je sais pas laquelle?
Merci pour votre aide.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#94 Le 08/12/2015, à 19:33

moko138

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Et si tu commences par convertir le .bmp en .png (ou autre format habituel),

convert mon-fichier.bmp mon-fichier.png

le problème persiste-t-il ?


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#95 Le 08/12/2015, à 20:03

L'Africain

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour Moko,
Le fichier original est un jpeg
Par contre je ne sais pas pourquoi, en retentant l'opération avec diverses options, ça fini par fonctionner, mais pas du premier coup (je parle uniquement pour yagf).


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#96 Le 09/12/2015, à 04:04

moko138

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Jpeg, je veux bien, mais tes trois retours partent d'une entrée en .bmp :

L'Africain a écrit :

Soudainement yagf s'est mis à ne plus fonctionner, avec cuneiform il me retourne l'erreur :

The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/.../.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)

  Avec tesseract:

Reading input.bmp as a list of filenames...

  SI je tente cuneiform directement dans le terminal j'ai :

The system said: Cuneiform for Linux 1.1.0
Magick: Length and filesize do not match (/home/cyrille/.config/yagf/input.bmp) reported by coders/bmp.c:807 (ReadBMPImage)

  Il me semble qu'il y a là une piste à creuser.


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#97 Le 09/12/2015, à 21:10

L'Africain

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

En effet il y a bien un fichier bmp. Il semble qu'image magic fasse une conversation dans ce format avant de le convertir en texte. Mais à la base il s'agit bien de JPEG. (J'ai vu un fichier bmp apparaître dans le dossier cache de yagf pendant la convertion)

Dernière modification par L'Africain (Le 09/12/2015, à 21:13)


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne