Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites". Attention, le forum rencontre actuellement quelques difficultés. En cas d'erreur 502, il ne faut pas re-valider l'envoi d'un message ou l'ouverture d'une discussion, au risque de créer un doublon.

La section divers se réorganise ! De nouvelles sous-sections à venir. (plus d'infos + donner son avis)

#76 Le 20/12/2011, à 16:20

jvcharles

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

ramold a écrit :

tu peux rajouter dans les moins de free ocr, qu'en plus du captcha, on ne peut faire reconnaître que dix pages ( de 2m.o maxi). Au bout de dix, il faut attendre une heure avant de pouvoir recommencer.

c'est fait, pour captcha c'était déjà là.


Kubuntu 14.10 14.04 kde 4.14.x 13.10 13.04 kde 4.13.x
AMD Athlon 64x2 4600+ 2.4 GHz, GeForce 8600 GT/PCI 512 MB
6 Go de ram - dd 500 Go/1 To
Tablette Android 4.4.2 Note 8

Hors ligne

#77 Le 20/12/2011, à 17:02

tuxmarc

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour à tous.
Pour moi Xsane n'a pas été facile à comprendre au départ et jusqu'à aujourd'hui, je cherchais vainement comment faire marcher l'OCR.
Ça y est!
Je vais me coucher moins bête que je me suis levé !
J'ai mis l'option "cuneiform -l fra" dans la configuration.
Après j'ai encore cherché comment on déclenche cette bourrique d'OCR jusqu'à ce que je considère les options et que j'ai l'idée de changer "copier" en "visIonneuse" et ensuite j'ai vu le bouton !!
Premier essai en 150 dpi et résultat pas fameux et je me suis rappelé qu'il était recommandé de scanner en 300 dpi.
Le résultat ! IM-PE-CCA-BLE
Ce qui est stupéfiant, c'est la vitesse d'analyse et de conversion ! Instantané !
Merci pour tous ces conseils.


Vive Richard Stalmann, Linus Torvalds, et tous les fondus de Linux.
De l'Ordinosaure fait à 90% de récup, à un portable LDLC neuf sans système, en passant par une tour, un serveur et une carte mère sans boitier, tous libres !!
Collection de 15 DD tous bien élevés au Linux sous la mère et se baladant d'une machine à l'autre.
Parrain Linux sur www.parrain-linux.com et www.parrains.linux.free.fr

Hors ligne

#78 Le 20/12/2011, à 17:36

mloupiot

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonsoir,
Au lieu de mettre "visionneuse" tu peux aussi mettre "enregistrer" et ton fichier est créé automatiquement.

Hors ligne

#79 Le 20/12/2011, à 18:03

Mathieu147

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

ramold a écrit :

Pour moi, le résultat est vraiment pas terrible.
Je n'arrive pas à comprendre pourquoi.

Tu pourrais essayer de nous donner un de tes textes scannés, qu'on essaie.


Pffff…

Hors ligne

#80 Le 21/12/2011, à 18:13

tuxmarc

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

mloupiot, j'ai besoin de tes lumières, car si j'ai bien obtenu des images dans le temps, ensuite là je cale pour savoir comment faire pour demander la reconnaissance de caractères.

ramold a écrit :

    Pour moi, le résultat est vraiment pas terrible.
    Je n'arrive pas à comprendre pourquoi.

ramold, moi aussi j'i eu des résultats pas terribles et j'ai fini par trouver le truc:
-passer en résolution plus forte,  150 dpi = caca, 300 dpi nettement mieux, 400 dpi parfait
Je me suis rendu compte qu'il y a intérêt à bien aligner la feuille ou le journal sur le bord du scanner, sinon un peu de travers ça fausse l'analyse.
Je me suis rendu compte qu'en scannant un article, il y a intérêt à bien isoler la partie intéressante (un coup de Gimp), sinon les caractères voisins s'invitent n'importe comment et n'importe où.


Vive Richard Stalmann, Linus Torvalds, et tous les fondus de Linux.
De l'Ordinosaure fait à 90% de récup, à un portable LDLC neuf sans système, en passant par une tour, un serveur et une carte mère sans boitier, tous libres !!
Collection de 15 DD tous bien élevés au Linux sous la mère et se baladant d'une machine à l'autre.
Parrain Linux sur www.parrain-linux.com et www.parrains.linux.free.fr

Hors ligne

#81 Le 21/12/2011, à 19:42

mloupiot

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

@ tuxmarc
Voici ma configuration dans Préférences→OCR :
1324491354.png

Dans le logiciel, pour enregistrer, j'ai à côté de la disquette : /home/mon_logging/dossier_de_destination/Docxxx.xxx
Attention : pas d'espaces dans les noms de dossier ou de fichier, par contre, les caractères accentués passent.
le pas est à 1

Pour la reconnaissance de caractères, je choisis
-Type : TEXT et à côté de la disquette ça devient : /home/mon_logging/dossier_de_destination/Docxxx.txt
-Mode : trait
-Gamma à 1

Ai-je répondu à ta question ?

Hors ligne

#82 Le 22/12/2011, à 10:59

tuxmarc

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

@mloupiot :
Réponse on ne peut plus parfaite smile
Pour la config, c'est bien ça que j'ai enregistré.
Le chaînon manquant, c'était de mettre "text" dans Type et là maintenant ça a fait tilt !
J'ai fait un essai en scannant quelque chose que j'avais imprimé, en mode trait et en mode gris pour comparer.
Le résultat est meilleur en mode trait et au passage, en énorme, j'ai pu voir les petites bavures que fait une jet d'encre et qui perturbent l'analyse.
Il y a un détail que je ne comprends pas : pas moyen d'avoir l'aide, la doc en html est absente.
J'ai vérifié dans /usr/doc/xsane et étrangement pas de fichier d'aide.
Si j'avais été plus malin, il y a bien de la doc sur Ubuntu.fr !!!

Merci pour le coup de main et passe un joyeux noël.


Vive Richard Stalmann, Linus Torvalds, et tous les fondus de Linux.
De l'Ordinosaure fait à 90% de récup, à un portable LDLC neuf sans système, en passant par une tour, un serveur et une carte mère sans boitier, tous libres !!
Collection de 15 DD tous bien élevés au Linux sous la mère et se baladant d'une machine à l'autre.
Parrain Linux sur www.parrain-linux.com et www.parrains.linux.free.fr

Hors ligne

#83 Le 22/12/2011, à 13:48

mloupiot

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Content de t'avoir aidé, joyeux noël à toi aussi.

Hors ligne

#84 Le 26/03/2014, à 14:05

pierpiotr

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour,
Je reprends ce fil en esperant qu'il soit encore actif. En tout cas l'OCR sera toujours utile.
Bon, mon pb est que les @ et les g disparaissent. J'essaie de scanner des listes d'emails dans un tableau dont j'ai isolé la colonne.
Il faudrait peut être modifier les options dans la configuration après cuneiform -l fra ...?


Kubuntu 14.04 (64b) - LDLC Aurore BB2-i5-8-S1  - Intel Core i5-2450M - 8 Go - SSD 128 Go - 15.6" LED - Graveur DVD Wi-Fi N/Bluetooth
Au bureau : Kubuntu 14.04 (64b) - PC tour LDLC PC Zi-Artist - i7-3770 @ 3.4/3.9Ghz - RAM 16Go - SSD 120Go - DD 3To - nVidia GEForce GT 640 1Go

Hors ligne

#85 Le 26/03/2014, à 19:37

gl38

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

As-tu essayé avec tesseract ?
Cordialement,
Guy

Hors ligne

#86 Le 27/03/2014, à 01:08

pierpiotr

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Pas encore, le fil icifait plutôt la part belle à cuneiform...
Donc je vais essayer.


Kubuntu 14.04 (64b) - LDLC Aurore BB2-i5-8-S1  - Intel Core i5-2450M - 8 Go - SSD 128 Go - 15.6" LED - Graveur DVD Wi-Fi N/Bluetooth
Au bureau : Kubuntu 14.04 (64b) - PC tour LDLC PC Zi-Artist - i7-3770 @ 3.4/3.9Ghz - RAM 16Go - SSD 120Go - DD 3To - nVidia GEForce GT 640 1Go

Hors ligne

#87 Le 27/03/2014, à 15:31

pierpiotr

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour Guy,
Tesseract donne de meilleurs résultats en effet avec 300ppi. J'ai poussé à 600 c'est mieux mais pas parfait (quelques @ et g passent à l'as quand mm et des caractères exotiques s'introduisent...).
J'ai donc essayé à 1200 mais là c'est la cata. 600 reste la meilleure option.
Merci en tout cas, cela me fait gagner du temps.


Kubuntu 14.04 (64b) - LDLC Aurore BB2-i5-8-S1  - Intel Core i5-2450M - 8 Go - SSD 128 Go - 15.6" LED - Graveur DVD Wi-Fi N/Bluetooth
Au bureau : Kubuntu 14.04 (64b) - PC tour LDLC PC Zi-Artist - i7-3770 @ 3.4/3.9Ghz - RAM 16Go - SSD 120Go - DD 3To - nVidia GEForce GT 640 1Go

Hors ligne

#88 Le 08/04/2014, à 21:13

agensbur

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Je tombe sur ce fil : merci pour la configuration exacte de l'intégration de cunéiform.

J'avais testé il y a longtemps et était resté septique. En fait, convenablement réglé, cela fonctionne bien, c'est léger et rend des vrais services .

(il vaut mieux isoler un bloc de texte à "OCEériser" lors de l'acquisition, ce peut être toute une page mais avec xsane pas question de faire de multi-sélection ni d'automatiser des enchaînements de blocs...Le couple xsane/cuneiform reste incomplet comparé aux poids lourds du "marché" (non portés sous Linux), mais la reconnaissance de caractères proprement dite est vraiment performante et mon windows en dual boot va finir par ne plus avoir aucune raison d'être.

Dernière modification par agensbur (Le 08/04/2014, à 21:16)


Dell Inspirion 620 - Intel(R) Core(TM) i5- 3.00GHz - 6 Go mémoire - Xubuntu 14.04-64 bits
NetBook Samsung NC -10 - Lubuntu 14.04-32 bits

Hors ligne

#89 Le 06/06/2014, à 17:48

moissan

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

merci pour m'avoir fait decouvrir cuneiforme

pas besoin de xsane une image recadré dans colourpaint pour ne garder que le texte a lire suffit

~/Documents/cuneiform$ cuneiform -l fra image.png

inutile de preciser le fichier destination , il crée un cuneiform-out.txt

pas besoin de mettre en TIFF comme il a été dit au debut : en png ça marche

par contre ça ne marche pas si les caractere sont trop petit  : une copie d'ecran  avec texte parfaitement contrasté ne passe pas du tout : un seul caractère reconnu : en multipliant la dimension par 2 , le texte est reconnu en entier

Dernière modification par moissan (Le 06/06/2014, à 17:52)

Hors ligne

#90 Le 08/07/2014, à 09:30

jacksonV

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

+abo :-)

Hors ligne

#91 Le 14/11/2014, à 11:18

L'Africain

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

bonjour,
Ce petit message pour vous partager un problème récent, j'utilise cuneiform depuis des années sans aucune difficultés. J'ai chipoté sur des fichiers que j'ai converti en utf-8 ( je sais pas si ça à un lien) et depuis lorsque je scanne avec xsane et l'option cuneiform -l fra le résultat c'est que mon fichier txt n'affiche plus les accents, mais un truc comme ça:

À mes chers fils John Vaughn, ministre général de l'Ordre des FrÚres mineurs; Vital Bommarco, ministre général de l'Ordre des FrÚres mineurs conventuels; Flavio Carraro, ministre général de l'Ordre des FrÚres mineurs capucins; Roland Faley, ministre

Par contre avec Yagf il n'y a pas de problème!
SI quelqu'un a une explication?
merci pour votre aide.

Dernière modification par L'Africain (Le 14/11/2014, à 11:23)


Ubuntu 14.04 LDLC (clevo) lifetec Lubuntu 14.04 32 bits Xubuntu 14.04 32 bits sur asus
"L'accomplissement parfait de la loi c'est l'amour" St Paul aux Romains

Hors ligne

#92 Le 14/11/2014, à 13:43

gl38

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Ce que tu montres c'est de l'utf8 affiché par un programme qui ne sait pas comment l'afficher.
Avec yagf, on peut choisir entre cuneiform et tesseract.
Cordialement,
Guy

Hors ligne

Haut de page ↑