Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 03/02/2011, à 10:34

yarland

[astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Pour avoir une reconnaissance de caractères qui fonctionne, j'ai un peu souffert. Aussi je vous propose, pour vous éviter d'y passer aussi de longs moments, de vous donner la petite solution que j'ai trouvé avec Xsane en y ajoutant le module cuneiform.
Pour le mode d'emploi, suivez le guide :
Installer xane , si ce n'est pas déjà fait.
Puis installer cuneiform
Retour dans xane, dans préférences, ouvrir l'onglet OCR et remplacer "gocr" par "cuneiform -l fra". (Merci à Mathieu147 et à Papillon41 pour les remarquables modifications apportées)
Choisir le mode noir et blanc et avec 600ppi
Chez moi, ça marche parfaitement.
Voila... c'est tout

PS: Si quelqu'un sait comment modifier la page http://doc.ubuntu-fr.org/ocr en y ajoutant ce qui précède, cela complèterait parfaitement cette page essentielle et incontournable.

Dernière modification par yarland (Le 04/02/2011, à 10:27)


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#2 Le 03/02/2011, à 10:39

legaci

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Merci,
je me suis déjà cassé le nez là-dessus.
Je garde ça sous le coude pour la prochaine fois !

legaci

Hors ligne

#3 Le 03/02/2011, à 10:50

papillon41

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bonjour yarland,


Merci pour cette information.
Cela marche super bien ! cool
Voici les résultats de mes tests.
Texte à analyser :

Les magic SysRq key sont une fonctionnalité du noyau Linux qui permet par une
combinaison de touches de lancer des commandes de bas niveau. Elle doit être activée à la
compilation du noyau - c'est le cas d'office sur la plupart des distributions.
La principale utilité de cet te Fonctionnalité est de pouvoir redémarrer un système bloqué 
sans corrompre le système de Fichier.

Avec "gocr" :

L ag   ey an e 3é d  n  et ar e
cnas de uches de anr d nde d  niv. &t dt Fe ci 
 cmt3n d n0ya   "s e  'F   up  ditin.

La rcp é de  ananna a e v edéaFcer n gs a
n cr Ee 5àm d c&er,

Avec "cuneiform" :

Les magic SysRq key sont une Ponctionnalite du noyau Linux qui permet par une
combinaison de touches de lancer des, commandes de bas niveau. Elle doit etre activee a la
compilation du noyau c' est le cas d'office sur la plupart des distributions.
a principale utilite de cet te Fonctionnalite est de pouvoir redemarrer un systeme bio ue
sans corrompre le systeme de Achier.

On constate des erreurs avec les majuscules, et l'absence d'accentuation.
La correction orthographique de "gedit" résout la plupart des erreurs.

Dernière modification par papillon41 (Le 03/02/2011, à 11:23)


()Ï() Xubuntu 22.04.2 64bits - AMD A4-3400 sur carte mère MSI A55M-P33 - 4 Go de RAM - ATI HD6410D - 2 SSD 120Go + DD SATA 500Go
Balade à Saint Étienne de Lugdarès
Classification des vins de france
Déclaration, Conventions et Chartes

Hors ligne

#4 Le 03/02/2011, à 11:07

Nasman

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Et Tesserract que donne-t-il ?


PC fixe sous Bionic 64 bits et portable avec Focal 64 bits

Hors ligne

#5 Le 03/02/2011, à 11:22

Brunod

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

+ abo wink


Windows est un système d'exploitation de l'homme par l'ordinateur. Linux, c'est le contraire...
39 pc linux convertis

Hors ligne

#6 Le 03/02/2011, à 11:51

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

papillion41 a écrit :

Merci pour cette information.
Cela marche super bien ! cool
Voici les résultats de mes tests.

Je suis content d'avoir pu aider au moins une personne


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#7 Le 03/02/2011, à 11:59

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Brunod a écrit :

+ abo

Pardonne-moi Brunod, mais je n'ai pas compris ce que tu voulais dire.


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#8 Le 03/02/2011, à 12:42

Mathieu147

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

yarland a écrit :
Brunod a écrit :

+ abo

Pardonne-moi Brunod, mais je n'ai pas compris ce que tu voulais dire.

Il a juste du mal à trouver le lien «suivre cette discussion» en bas de la page…


Pffff…

Hors ligne

#9 Le 03/02/2011, à 13:40

papillon41

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Mathieu147 a écrit :

Il a juste du mal à trouver le lien «suivre cette discussion» en bas de la page…

Il ne veut peut être pas de "Discussion suivies" ? Mais suivre dans "Mes messages". Ce n'est pas la même chose. wink


()Ï() Xubuntu 22.04.2 64bits - AMD A4-3400 sur carte mère MSI A55M-P33 - 4 Go de RAM - ATI HD6410D - 2 SSD 120Go + DD SATA 500Go
Balade à Saint Étienne de Lugdarès
Classification des vins de france
Déclaration, Conventions et Chartes

Hors ligne

#10 Le 03/02/2011, à 15:05

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Nasman a écrit :

Et Tesserract que donne-t-il ?

Je n'ai pas essayé, j'étais tellement content d'avoir trouvé une solution que je n'ai pas été plus loin.
Mais je tenterai certainement le coup, et toi as-tu essayé ?


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#11 Le 03/02/2011, à 15:08

Nasman

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

J'ai constaté que tesserract marche bien mieux que gocr mais je ne sais pas s'il est mieux que cuneiform.


PC fixe sous Bionic 64 bits et portable avec Focal 64 bits

Hors ligne

#12 Le 03/02/2011, à 15:33

Mathieu147

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Punaise Cuneiform ça marche super bien.

Image de départ:
screenshot1ce.png
Texte résultat:

Avant d'aborder le thème proprement dit de cet ouvrage, la manière de travailler le cheval, il faut que nous nous mettions d'accord sur les moyens dont l'homme dispose à cet effet. Par ce terme de moyens, je ne veux pas dire les accessoires dont il se sert au cours de son travail : bride, selle, éperons, cravache, longe, piliers, auxquels nous ne consacrerons pas de chapitre particulier, mais seulement quelques remarques à l'occasion ; ce que je désigne par là, c'est l'usage que l'homme fait de son propre corps, quand il travaille le cheval. Cet usage de ses membres ne sera juste et ne conduira au but que s'il repose, à tout point de vue, sur une intelligence approfondie de la nature du cheval et sur la connaissance exacte de sa constitution physiologique. Ainsi compris, les moyens de travailler le cheval sont en premier lieu : une position du cavalier adéquate et conforme à la nature, et, partant de cette position, le juste emploi de ses membres agissant comme aides sur l'animal.

À noter que je n'ai posté ici qu'une partie du texte de départ qui contient en fait plusieurs paragraphes. Cuneiform détecte les paragraphes smile

On voit que j'ai les accents: j'ai utilisé l'option

cuneiform -l fra

pour mettre Cuneiform en Français. Essayez peut-être de mettre cette commande dans Xsane?


Pffff…

Hors ligne

#13 Le 03/02/2011, à 15:42

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Mathieu147, tu es le champion du monde. En effet je n'avais pas les accents et nettement moins de ponctuations et de paragraphes. Là, c'est le TOP !!!!
Dès que je rentre ce soir je fais la modif.
Un très grand merci à toi...


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#14 Le 03/02/2011, à 15:48

papillon41

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Bravo Mathieu147,
En mettant "cuneiform -l fra" en remplacement de "gocr" dans les options de "Xsane", on obtient le résultat en français.


Et voici une ligne de commande en prime :

cuneiform -l fra -o texte_pour_ocr.txt texte_pour_ocr.png

Dernière modification par papillon41 (Le 03/02/2011, à 16:10)


()Ï() Xubuntu 22.04.2 64bits - AMD A4-3400 sur carte mère MSI A55M-P33 - 4 Go de RAM - ATI HD6410D - 2 SSD 120Go + DD SATA 500Go
Balade à Saint Étienne de Lugdarès
Classification des vins de france
Déclaration, Conventions et Chartes

Hors ligne

#15 Le 03/02/2011, à 16:32

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

papillon41 a écrit :

Et voici une ligne de commande en prime :

cuneiform -l fra -o texte_pour_ocr.txt texte_pour_ocr.png

Papillon, ça fait quoi de plus ?


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#16 Le 03/02/2011, à 16:33

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Vivement ce soir que j'essaie tout ça !


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#17 Le 03/02/2011, à 16:51

papillon41

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

yarland a écrit :

Papillon, ça fait quoi de plus ?

Pour faire l'ocr d'une image qui vient d'une autre source que le scanner, internet par exemple.

Dernière modification par papillon41 (Le 03/02/2011, à 16:51)


()Ï() Xubuntu 22.04.2 64bits - AMD A4-3400 sur carte mère MSI A55M-P33 - 4 Go de RAM - ATI HD6410D - 2 SSD 120Go + DD SATA 500Go
Balade à Saint Étienne de Lugdarès
Classification des vins de france
Déclaration, Conventions et Chartes

Hors ligne

#18 Le 03/02/2011, à 17:00

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Très bon ça....Merci Papillon


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#19 Le 04/02/2011, à 07:22

Mathieu147

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

yarland a écrit :

Mathieu147, tu es le champion du monde.

Ne faudrait-il pas éditer le premier message pour ajouter l'option -l ?


Pffff…

Hors ligne

#20 Le 04/02/2011, à 07:24

Brunod

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

papillon41 a écrit :
Mathieu147 a écrit :

Il a juste du mal à trouver le lien «suivre cette discussion» en bas de la page…

Il ne veut peut être pas de "Discussion suivies" ? Mais suivre dans "Mes messages". Ce n'est pas la même chose. wink

+1 : abo nnement à cette discussion qui m'intéresse ! smile


Windows est un système d'exploitation de l'homme par l'ordinateur. Linux, c'est le contraire...
39 pc linux convertis

Hors ligne

#21 Le 04/02/2011, à 08:07

Fafanuclear

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Merci pour la ligne de commande, fonctionne très bien chez moi aussi.

Hors ligne

#22 Le 04/02/2011, à 09:25

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Mathieu147 a écrit :

Ne faudrait-il pas éditer le premier message pour ajouter l'option -l ?

Mathieu, tu as raison, je viens d'éditer la ligne.


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#23 Le 04/02/2011, à 10:23

papillon41

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Attention yarland,
Il ne faut pas mettre la ligne de commande complète, mais seulement "cuneiform -l fra".
C'est "xsane" qui se charge du reste.


()Ï() Xubuntu 22.04.2 64bits - AMD A4-3400 sur carte mère MSI A55M-P33 - 4 Go de RAM - ATI HD6410D - 2 SSD 120Go + DD SATA 500Go
Balade à Saint Étienne de Lugdarès
Classification des vins de france
Déclaration, Conventions et Chartes

Hors ligne

#24 Le 04/02/2011, à 10:26

yarland

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

Ok, je modifie tout de suite


MSI G31 M - Dual 2 core - 2mb RAM DDR2 - Ecran 24'' - DD 2 x 500Go

Hors ligne

#25 Le 04/02/2011, à 11:34

papillon41

Re : [astuce]Pour éviter la galère de la reconnaissance de caractères (OCR)

J'ai essayé tesseract. smile

Il faut installer : tesseract-ocr tesseract-ocr-eng tesseract-ocr-fra
D'autres langues sont disponibles.
Puis en ligne de commande :

tesseract out_texte_pour_ocr.tif tesseract01.txt -l fra

Voici le résultat par rapport au texte de référence du post #3, (il me semble moins bon que "cuneiform") : neutral

Les magic SysRq key sont une fonctionnalité du noyau Linux qui permet  pa r une
combinais on de touches de lancer des commandes de bas niveau. Elle doit être activée à
la compilation du noyau ·———· c'est le cas d'oFFice sur la plupart des distributions.
La principale utilité de cette fonctionnalité est de pouvoir redémarrer un système bloqué
sans corrompre le système de fic hier.

L'image doit être dans le format "TIFF".
Je n'ai pas su le faire fonctionner dans "xsane".

Dernière modification par papillon41 (Le 04/02/2011, à 16:15)


()Ï() Xubuntu 22.04.2 64bits - AMD A4-3400 sur carte mère MSI A55M-P33 - 4 Go de RAM - ATI HD6410D - 2 SSD 120Go + DD SATA 500Go
Balade à Saint Étienne de Lugdarès
Classification des vins de france
Déclaration, Conventions et Chartes

Hors ligne