Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus · Le 22/11/2006, à 20:08

[Edit décembre 2012 : tesseract avec xsane2tess : cette solution fonctionne bien avec Ubuntu 12.04 LTS, comme indiqué dans le documentation Ubuntu francophone sur xsane2tess, en installant tesseract 3.02 via les dépôts, et xsane2tess avec le script indiqué dans la doc]

[Edit février 2007 : en tête du premier message de ce fil de discussion, je note son objet et deux liens utiles en complément :

- Objet : regrouper ici toutes les expériences de ROC/OCR sous Ubuntu, dans le but de définir les méthodes (logiciel + la façon de les utiliser... "savoir-faire") permettant d'obtenir les meilleurs résultats.
- Un lien sur la Documentation : la page de Pierre S. pour noter les trucs et astuces et les résultats des tests les plus utiles à tous : http://doc.ubuntu-fr.org/ocr
- Un lien vers le blog de "The Glu" (article du Planet) : http://theglu.tuxfamily.org/index.php/p … t-pas-bien

Affaire à suivre !]

Edit janvier 2008 : il y a du nouveau, et du bon :
--> voir l'article sur "Linux on the root"
--> et la page de la documentation Ubuntu francophone à propos de tesseract
--> le lien du forum Hardware, oà¹ d'autres sont intéressés par la roc sous Linux...

Bonjour à tous,

Je poste ce message pour essayer de regrouper dans un fil de discussion tous les trucs et astuces pour réussir des "reconnaissances de caractères" (ROC/OCR) de qualité avec Ubuntu.

J'ai repéré quelques éléments çà et là par la recherche.

J'en note quelques-uns dans des discussions plus ou moins récentes... (les 2 premiers points dans une discussion de juillet dernier) :

1°) "?", accents, UTF8 et OOo Writer

Xsane utilise gocr pour convertir l'image en texte et cela fonctionne pas trop mal. Cependant, le fichier .txt généré est en ISO8859 et lorsque je l'ouvre avec OpenOffice.org tous les caractères accentués sont remplacés par des points d'interrogation. Y a-t-il une solution soit du cà´té d'OpenOffice.org, soit du cà´té de Xsane/Gocr pour contourner le problème? Quel est le plus simple?

Réponse :

Dans Xsane, aller dans Préférences->Configuration->OCR et pour le paramètre
'Commande OCR' mettre 'gocr -f UTF8'. Tu aura les accents dans OpenWriter ...

P.S. : moi, j'ai fait ça aujourd'hui dans Xsane, mais si j'ouvre le fichier .txt avec OOo Writer... j'ai quand même des "?" à la place des accents.

2°) Xsane, niveau de résolution et caractères non reconnus

J'ai mis dans Xsane :: gocr -f UTF8 à la place de gocr
et je scanne en 600 dpi
Le résultat est déjà bien sympathique pour une page dactilographié.
il arrive encore des erreurs comme
Voici un bref extrait :
intàƒÅ¡gre -->à la place intègre
dàƒÂ©6nition-->définition
màƒÂ©decin-->médecin
possàƒÂble-->possible
A tous les coups :
àƒÂªtre-->être
Y a-t-il un moyen d'affiner ?

Message resté sans réponse pour l'instant.
Question résolution, perso, j'ai eu des résultats de meilleure qualité en 300 dpi qu'en 400 dpi avec Xsane...
Et vous ?
Et plus la résolution est grande, plus c'est long...
Quelle est la résolution idéale pour le ROC ?

3°) Comment obtenir une reconnaissance de caractère de qualité...
... intégrée à (ou très facilement ouvrable - sans trop de manip avec) OOo writer ?
ça, c'est dans un post qui a plus d'un an... :

Voilà je tourne sur une hoary 5.04,
J'ai un scanner que j'utilise avec xsane.
L'idée serait de scanner un document , puis après l'avoir scanné, pouvoir effectuer des modifications de texte à travers openoffice.
J'ai été demandé à google j'ai trouvé gocr, ocrad et clara (houba houba con celui là pas facile) je les installé j'ai essayé, ben je les trouve pas du tout concluant, ou alors je sais pas faire.
Si il y quelqu'un qui sait faire je suis preneur.

Réponse : "Kooka (j'ai pas essayé)"
Suite :

Je viens d'essayer ta solution. Cà le fait pas toujours, mais il y a une amorce.
En fait kooka est une interface graphique de ocrad doublée de l'utilisation du scanner si j'ai bien compris.

En fait, Kooka utilise au choix ocrad ou gocr, c'est une question de configuration.

Mais qui obtient de bons résultats... et comment ?

4°) Une reconnaissance de caractères "finalisée" par référence automatique à des dictionnaire ?
J'ai cette question parce que sous windows, j'utilise un logiciel OCR (celui que j'avais eu à l'achat du scanneur), que je peux configurer avec des modules de langue. J'ai scanné des textes en français, en anglais, en allemand et en hongrois... et la reconnaissance de caractères est excellente lorsque la langue correspondante a été sélectionnée avant la réalisation du scan (ou du processus de reconnaissance).

Je n'ai pas trouvé dans Xsane de mention de dictionnaire. Et dans Kooka, quand on lance la reconnaissance, dans la fenêtre qui s'ouvre "Reconnaissance Optique de Caractères - Kooka", il y a un onglet "Vérification de l'orthographe". Avec une mention "post-traitement de la ROC".
Si on active la reconnaissance de l'orthographe pour valider le résultat de la ROC, on peut sélectionner un dictionnaire (chez moi, je n'ai que "Ispell par défaut"), un encodage (j'ai choisi UTF8, mais il y a peut-être mieux... et ce n'est peut-être pas le même selon la langue traitée), et un client (J'ai Ispell International, Aspell, Hspell et Zemberek)... je ne sais pas à quoi ça correspond.
Cependant, pour l'instant, je suis obligé de désactiver la reconnaissance de l'orthographe, sinon, lors du lancement de la ROC, j'ai le message : "Impossible de démarrer la vérification de l'orthographe sur ce système, veuillez vérifier la configuration"...

5°) Kooka "enregistrer le résultat de la ROC" (en .txt) et OOe Writer : texte coupé avec de mauvais passages à la ligne...
Pas de problème de "?" pour un .txt ouvert avec OOo Writer s'il s'agit d'une reconnaissance de caractères faites par Kooka... par contre, le texte est coupé de manière intempestive avec des passages à la ligne (dans OOo).
En plus des caractères mal reconnus, il faut donc refaire de nombreuses manips pour la mise en page. Quelqu'un aurait-il un remède ?

Bon... ça fait beaucoup. J'en ai pas d'autre pour l'instant. Mais si certains ont des trucs et astuces pour faire sous Ubuntu de la ROC de qualité, adaptée aux langues, facile à traiter ensuite dans OOo...

Merci !

Dernière modification par Sorbus (Le 07/12/2012, à 10:09)

Sorbus · Le 09/12/2006, à 15:40

Une contribution de Frankubuntu (reprise d'un autre fil) le 9/12/2006 :

Salut chez moi aussi ça fonctionnait vraiment pas bien mais si tu augmentes la résolution de ton scanner ça marche tt de suite bcp mieux. Le seul hic c'est que les fichiers sont énormes et donc mettent bcp de tps pour être scannés ( mais quand même moins que si tu devais tout retaper )
Pour ça, quand tu ouvres Xsane, que t'as choisi ton scanner ( si t'en a plusieurs) tu choisis type puis text et tant qu'à faire tu l'enregistres tt de suite en sélectionnant enregistrer tout au dessus puis tu scannes en niveau de gris ( ça dégrossit énormément les fichiers) et t'augmente la résolution (à partir de 20 Mo (affiché en dessous) ça devient vraiment raisonnable mais quand (même) un peu de retravail après à faire.
De plus ça n'a rien à voir avec la langue

Dernière modification par Sorbus (Le 09/12/2006, à 17:53)

Sorbus · Le 09/12/2006, à 19:15

Bonsoir Frankubuntu,

Quand tu dis "niveau de gris", c'est la case où on a le choix entre "Noir et blanc", "Gris" et "Couleur" (en dessous de "Text") ? Donc, il faut choisir "Gris" ?

C'est ce que je viens de faire : j'ai imprimé ton texte ci-dessus (en le mettant en "arial 12"), et je l'ai scanné ainsi 4 fois de suite, avec 4 résolutions différentes : 400, 600, 800 et 1600 dpi (comme le texte est court, seule cette dernière résolution dépassait un peu les 20 MB... mais avec la totalité d'une page A4, on dépasse déjà 20 MB en 600 dpi).

Résultat du scan de la 1ère phrase ("Salut chez moi aussi ça fonctionnait vraiment pas bien mais si tu augmentes la résolution de ton scanner ça marche tt de suite bcp mieux.") :

1600 dpi :

(PICTURE)
aIut c(PICTURE)ez (PICTURE)o\code(012d) aussî (PICTURE)a ronctîonnaît vraí(PICTURE)ent (PICTURE)as (PICTURE)îen (PICTURE)aîs sî tu au(PICTURE)(PICTURE)entes Ia
r_soIut\code(012d)on (PICTURE)e ton scanner (PICTURE)a (PICTURE)arc(PICTURE)e (PICTURE) (PICTURE)e suîte (PICTURE)c(PICTURE) (PICTURE)îeux,

800 dpi :

SaIut chez mo\code(012d) aussì ça fonctíonnaìt vraîment pas b\code(012d)en maîs sì tu augmentes Ia
résoIutìon de ton scanner ça marche _ de suîte bcp míeux.

600 dpi :

SaIut chez moi aussì ça ronctíonnaìt vraiment pas bìen maìs sî tu augmentes Ia
FésoIutìon de ton scanner ça marche _ de suîte bcp mieux.

400 dpi :

SaIut chez moi aussi ça fonctionnait vraíment pas bien maìs, si tu augmentes la
reFsolution de ton scanner ça marche tt de suîte bcp mîeux.

[Edit 10 février 2007 :
300 dpi :

Salut chez moi aussi ça fonctionnait vraiment pas bien mais si tu augmentes la
résolution de ton scanner ça marche tt de suite bcp mieux.

Constat : dans ce cas, le moins mauvais résultat est obtenu en 300 dpi.
De fait, le logiciel réalise un vrai travail de reconnaissance de caractères... Et pour cette phrase simple en "arial 12", c'est "zéro défaut". Mais avec des textes un peu plus complexes ou avec d'autres polices, je ne trouve pas ça encore vraiment satisfaisant.

Pour le même texte, le résultat obtenu avec Kooka, configuré avec le moteur ROC "OCRAD", mode "Binary", 300 dpi ou 400 dpi est lui aussi impeccable. (le résultat se dégrade fortement en 600 dpi).

Dernière modification par Sorbus (Le 10/02/2007, à 12:13)

bidou · Le 17/12/2006, à 23:44

bonsoir,
je voudrais utiliser un logiciel d'ocr. mais si j'utilise gocr le fichier retourner est bourré de fautes.
et lorsque j'utilise kooka la reconnaissance de texte ne marche pas. c'est parce que je suis sous gnome??
bref, comme tu recenses toute la doc sur le sujet, tu pourrais peut-être m'indiquer un tuto ou un forum pour m'aider.
ou me dire comment augmenter la qualité du fichier.
amicalement
Bidou

Dernière modification par bidou (Le 17/12/2006, à 23:46)

Sorbus · Le 18/12/2006, à 05:00

Bonjour bidou,

J'essaye de réunir les infos sur ce fil... mais tu vois que pour l'instant, je reste avec plein de questions.

Tu dis que tu as utilisé gocr : c'est à dire sans passer par Xsane ni Kooka ? Comment fais-tu ? (c'est de ma part une question naïve... pour l'instant, je suis toujours passé par Xsane et Kooka (ce dernier utilisant ocrad ou gocr)).

lorsque j'utilise kooka la reconnaissance de texte ne marche pas. c'est parce que je suis sous gnome??

Non, je suis suis aussi sur gnome, et la reconnaissance de caractère marche avec Kooka. Il reste aussi des fautes, mais il y a une vraie reconnaissance de caractères, un peu comme dans mon exemple de scan en 400 dpi avec Xsane dans mon message précédent. J'essayerai de t'indiquer les manips, mais ce matin, je travaille sur mon portable (mon fixe et mon scanneur sont en un autre lieu). De mémoire, d'après les posts que j'ai pu trouver, Kooka fonctionne aussi bien sur Gnome que sur Kde.

bref, comme tu recenses toute la doc sur le sujet, tu pourrais peut-être m'indiquer un tuto ou un forum pour m'aider.
ou me dire comment augmenter la qualité du fichier.

Je n'ai rien d'autre pour l'instant, et j'ai laissé cette question quelques jours, à cause du temps passé à l'installation d'Ubuntu sur mon portable. Mais je reviendrai sur le sujet. Si je trouve des choses, je les indiquerai dans ce fil de discussion. De ton côté, si tes recherches te permettent de trouver des trucs et astuces, indiques-les ici... Si les utilisateurs de ROC/OCR travaillant sous Ubuntu rassemblent ici leur savoir-faire, on pourra progresser ensemble...

@+

Dernière modification par Sorbus (Le 18/12/2006, à 05:00)

Sorbus · Le 03/02/2007, à 09:28

Message de Pierluc sur un autre fil :

Xsane regroupe plusieurs logiciels de numérisation:
- numérisation de photo
- numérisation de négatifs
- numérisation de texte OCR
- photocoie
Par défaut quand on clique sure l'icône de Xsane sa ouvre Le Sane pour photos mais via la barre de menu on peut ouvrir d'autres logiciels de Sane. Une chose importante est de bien choisir la résolution. Si on prend une movaise résolution il risque de confondre la texture de la feuille avec les polices de caractères ce qui mettre pleins de symbols pas rapport dans le texte.
Pour les tableaux c'est pas supers, mieux vaux les refaires nous même.

Sorbus · Le 03/02/2007, à 16:08

Je reviens sur une remarque de Frankubuntu :

De plus ça n'a rien à voir avec la langue

Oui, sans doute, la reconnaissance optique n'a comme telle "rien à voir" avec la langue. Mais certains logiciels effectue ensuite un traitement du résultat obtenu en fonction de la langue sélectionnée.

J'utilise une vieille version de TextBridge sous windows, achetée avec le scanneur il y a 6 ou 7 ans. Si je scanne un texte en français en ayant sélectionné "allemand" avant d'effectuer le scan, le résultat est moyen. Par contre, si j'ai sélectionné "français", le résultat est très bon.

D'où ma question 4 dans le premier message de ce fil : comment fonctionne le "post-traitement de la ROC" dans Kooka ? Pourquoi ne semble-t-il pas fonctionnel "sur ce système" ?

Dernière modification par Sorbus (Le 03/02/2007, à 16:11)

Sorbus · Le 06/02/2007, à 16:41

Copie d'un message de Schbler sur un autre fil :

Manque de sommeil ? Besoin de nouvelles lunettes ?
Toujours est-il que je ne vois pas "Type", pour y choisir "Texte". Les mode Xsane que j'ai sont "Visionneuse", "Enregistrer", "Copier", "Faxer" & "e.mail"..... Grrrrr !!
J'ai oublié de cocher quelque chose ?
Faut-il réinstaller Xsane ?
Merci de vos réponses.

Sorbus · Le 06/02/2007, à 16:58

Bonjour Schbler,

Je donne ma réponse ici dans l'optique de regrouper dans ce fil les questions/réponses au sujet de la ROC/OCR.

Quelle est ta version de XSane ? Tu es sous Ubuntu Dapper ou Edgy ? Quel est le nom de ton scanneur ? Il se peut qu'il y ait quelques différences en fonction de ces éléments ...

Je te mets ci-dessous une copie d'écran de la fenêtre XSane qui apparaît chez moi, où je peux sélectionner "TEXT". Je suis sous Ubuntu Edgy; mon scanneur est un bon vieil Epson Perfection 1200 S (en SCSI)... et XSane 0.991.

Comment ça se présente chez toi ?

Dernière modification par Sorbus (Le 06/02/2007, à 23:38)

Schbler · Le 07/02/2007, à 13:34

@Sorbus

Ma version de Xsane est 0.97. Il apparaît que la patie supérieure de ta fenêtre est différente de celle que j'ai.
Je suis sous Dapper
Mon scanner est un Canon CanoScan N670U

Sorbus · Le 07/02/2007, à 18:28

La version Xsane 0.97 est sortie en janvier 2005.
La version 0.991 en janvier 2006.
La dernière version (0.992) vient de sortir.

Les modes XSane que tu citais dans ton courriel précédent correspondent aux choix des fonctions (chez moi : Visionneuse, Enregistrer, Copier, Multipage, Faxer, Courriel).

Je viens d'aller voir sur le site de XSane :
http://www.xsane.org/doc/sane-xsane-sca … s-doc.html

Les captures d'écran qui sont données pour la version 0.99 correspondent à peu près à ce que j'ai. Il y a bien une sélection possible de "Type" (ce qui correspond au format de sauvegarde du document scanné).

Dans la version 0.97 dont tu disposes, tu peux sélectionner le mode... mais tu ne vois pas où sélectionner "Type" ?

Même si tu choisis le mode "Enregistrer", tu ne vois pas apparaître la possibilité de sélectionner "Type" ?

N.B : Cette possibilité n'apparaît pas si tu as sélectionné l'un des modes "Copier," "Multipage", "Faxer" ou "Courriel (e-mail)"...

Si "Type" n'apparaît pas quand tu as sélectionné le mode "enregistrer", ça vient peut-être de la version 0.97, que je ne connais pas. Mais il doit bien y avoir quelque part la possibilité de sélectionner le format d'enregistrement des documents ?

Je ne sais pas non plus si le paquet "XSane" a été mis à jour pour Dapper, lors du passage à la version 0.99 de XSane.

Est-ce que dans ta liste des dépôts, tu as mis les backports ?

@+

Dernière modification par Sorbus (Le 07/02/2007, à 18:30)

dr_ken · Le 07/02/2007, à 18:36

non malheureusement pour dapper pas de mise à jour de Xsane (d'ailleurs pas de mises à jour logicielles sous ubuntu à part mises à jour de sécurité)

par contre je me souviens que sous dapper j'avais récupéré le deb de la version 0.99 qui te permet en plus d'avoir le mode multipage!

je me lance dans une batterie de tests pour l'OCR et je tiens au courant si j'arrive à optimiser les paramètres

[edit]
je viens de faire quelques tests avec un texte d'une feuille A4 avec beaucoup de mots accentués (normal en français), des dates, des titres, retours à la ligne etc...
un texte assez complet en clair!

j'ai utilisé Xsane avec gocr
la meilleure reconnaissance est obtenue avec une résolution de 600dpi en gris et pleine échelle couleur par contre c'est loin d'être parfait!

quasiment tous les "L" minuscules sont vus comme des "1" (texte de base en Times new roman) et les successions de lettres "tr" sont quasi toutes vues comme des "h" et on perd un peu la mise en forme
sinon les lettres accentuées le sont bien (parfois les "i" le sont aussi )

voila je vais continuer avec kooka et je posterai mes résultats ici

Dernière modification par dr_ken (Le 07/02/2007, à 20:47)

Schbler · Le 09/02/2007, à 10:17

Pour obtenir le résultat décrit par Sorbus, j'ai été sur le site de Xsane et j'ai téléchargé la version actualisée. L'installation n'a pas pu s'effectuer car la version de sane est trop ancienne. Comme je crains de faire des erreurs, j'en appelle à vos compétences, en posant les questions suivantes :
1/ Est-il judicieux d'installer des versions actualisées de sane et de Xsane ?
2/ Dans l'affirmatif, quelle procédure faut-il suivre ? En effet, par exemple, j'ai pu constater qu'il fallait d'abord installer sane avant Xsane.
3/ Pourquoi existe-t-il un tel décallage entre la version fournie avec Dapper et celle de cette application ?

scorpio810 · Le 09/02/2007, à 11:30

Schbler a écrit :

3/ Pourquoi existe-t-il un tel décallage entre la version fournie avec Dapper et celle de cette application ?

les paquets ont ete figés lors de la sortie de dapper et il n' y a que les mises a jours de securitée qui entrent
soit tu cherche un depot alternatif soit tu desinstalle et tu compile la derniere version mais vu les dependances tu vas t'amuser un petit moment

Sorbus · Le 09/02/2007, à 17:27

L'expérience de Schbler va me conduire à préciser sur le Wiki que les indications données pour la réalisation de ROC/OCR avec XSane ne valent qu'à partir de Edgy.

Mais auparavant, j'aurais aimé être certain qu'il n'existe aucune alternative avec Dapper + XSane 0.97 : avec cette version, est-ce qu'il n'y a vraiment aucun moyen d'enregistrer un document au format désiré, et en particulier au format "TEXT" ?

Est-ce qu'il y a sur le forum d'autres utilisateurs de Dapper + XSane qui pourraient répondre ?

Question subsidiaire : j'ai donné sur le Wiki un mode d'emploi pour réaliser de la ROC/OCR avec Kooka; mais j'utilise aussi Kooka sous Edgy. Est-ce que ça peut représenter une alternative sous Dapper (ça pourrait rendre service à Schbler) ? Certains en ont-ils l'expérience ?

Dernière modification par Sorbus (Le 09/02/2007, à 17:51)

Sorbus · Le 09/02/2007, à 17:42

@dr_ken

Je viens de lire les résultats de tes tests avec XSane.

Tu es de ceux qui obtiennent les meilleurs résultats en résolution 600 dpi. Curieusement, j'obtiens les meilleurs résultats en 300 dpi. D'oà¹ cela vient-il ?

Il serait intéressant d'effectuer nos tests avec le même texte... avec les mêmes polices et les mêmes tailles de caractères.

Voici le texte que j'utilise pour les tests :

Ce texte a été écrit pour tester les différents logiciels de ROC/OCR sous Linux. Peut-être aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. 1 & 2 ou 3 + 4, ça fait 3 ou 7. C'est à dire que quelques chiffres placés on ne sait oà¹, ce n'est pas très facile. Voilà en gras. Cette dernière phrase est en italique : à é è ç à¹ ! ? < > @ % , ; /

Je décline ce même texte avec différentes polices de caractères, répétées chacune avec les tailles de caractères 10 et 12.

J'ai testé pour l'instant ce texte avec les polices "Arial", "Times New Roman" et "Courier 10 Pitch"...

Mais il existe certainement mieux : certains connaissent peut-être des textes normalisés étudiés pour des tests de ROC/OCR en français ?

Dernière modification par Sorbus (Le 19/01/2008, à 14:20)

Schbler · Le 10/02/2007, à 10:58

A vous lire, j'ai effectué 2 opérations différentes :

1/ je me suis souvenu que j'avais remisé dans une boite TexteBridge. Pour l'instant je n'ai pas encore réussi à l'installer sous wine. En effet, cela demande de se mettre en relation avec la maison mère pour obtenir un update de ce logiciel. Cela se fait automatiquement, mais via un modem 56K. Donc à suivre ....

2/ J'ai installé Kooka qui demande aussi d'installer cocad. La numérisation s'effectue bien. J'ai choisi pour commencer un texte simple. Pendant que l'OCR travaille, j'ai largement le temps de faire un café, de le boire et d'écrire ces lignes. Cette lenteur ne me semble pas de bonne augure. D'autre part, il apparaît que les options de dictionnaire et de d'encodage de caractères ne soient pas gardées en mémoire. Donc, là encore, à suivre ....

Sorbus · Le 10/02/2007, à 11:43

Bonjour Schbler,

1/TextBridge sous wine... Je n'y avais pas pensé. Pour l'instant... en attendant que les logiciels de ROC/OCR sous Linux s'améliorent, c'est peut-être une bonne alternative. Mais est-ce possible ? Pour l'instant, je n'ai pas installé wine... mais si tu réussis pour TextBridge, ça m'intéresse.

2/ Je viens de refaire un essai avec Kooka avec une page A4 remplie de texte. A partir du moment ou je clique sur "Démarrer la ROC", il ne se passe pas 5 secondes avant que je n'obtienne le résultat... Je ne fais ni ne bois le café si vite
Il y a donc un problème chez toi... Est-ce le fait que ce soit Kooka sous Dapper ? Ou bien une question de configuration ? N.B. : j'ai décoché la case "activer la vérification de l'orthographe".

2/(suite)

D'autre part, il apparaît que les options de dictionnaire et de d'encodage de caractères ne soient pas gardées en mémoire. Donc, là encore, à suivre ....

En effet, j'ai moi aussi un problème avec ça. Je n'arrive même pas à faire fonctionner le dictionnaire correctement.

Dernière modification par Sorbus (Le 10/02/2007, à 11:46)

scorpio810 · Le 10/02/2007, à 11:55

Sorbus a écrit :

@dr_ken
Je viens de lire les résultats de tes tests avec XSane.
Tu es de ceux qui obtiennent les meilleurs résultats en résolution 600 dpi. Curieusement, j'obtiens les meilleurs résultats en 300 dpi. D'où cela vient-il ?
Il serait intéressant d'effectuer nos tests avec le même texte... avec les mêmes polices et les mêmes tailles de caractères.
Voici le texte que j'utilise pour les tests :
Ce texte a été écrit pour tester les différents logiciels de ROC/OCR sous Linux. Peut-être aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. 1 & 2 ou 3 + 4, ça fait 3 ou 7. C'est à dire que quelques chiffres placés on ne sais où, ce n'est pas très facile. Voilà en gras. Cette dernière phrase est en italique : à é è ç ù ! ? < > @ % , ; /
Je décline ce même texte avec différentes polices de caractères, répétées chacune avec les tailles de caractères 10 et 12.
J'ai testé pour l'instant ce texte avec les polices "Arial", "Times New Roman" et "Courier 10 Pitch"...
Mais il existe certainement mieux : certains connaissent peut-être des textes normalisés étudiés pour des tests de ROC/OCR en français ?

http://jocr.sourceforge.net/tmp/examples/clean/font2.pbm.gz
http://jocr.sourceforge.net/tmp/examples/clean/font1.pbm.gz

Schbler · Le 10/02/2007, à 11:55

Compte-rendu de mes essais :

1/ En lui forçant un peu la main, TextBridge s'est finalement logé sous wine. J'ai retrouvé avec plaisir son aptitude à remplacer, en première lecture, les à par des ä, les û par des ü. Il fait un gros effort pour fournir un texte correcte, mais d'emblée il est conçu pour la langue allemande. Il va lui falloir un peu de temps pour apprendre le français. Il y en a d'autres pour qui ça été le cas !!
L'avantage, c'est qu'il conserve bien les mises en page.

2/ Pour que ocrad (que j'ai appelé par erreur cocad précédemment) veuille bien travailler, il faut que l'image soit non en jpeg mais en bmp. Je pense que le choix de l'encodage doit avoir beaucoup d'importance, ainsi que celui du dictionnaire. En effet, il m'a sorti, assez rapidement c'est vrai, un texte brut, truffé de fautes et sans conservation de la mise en page. La correction du texte demande, à mon avis, moins de temps que de le retaper, sans doute parce que je ferais une bien piètre secrétaire ...

Je vais continuer mes tests .....

Sorbus · Le 10/02/2007, à 14:49

@scorpio810
- merci pour ces pages de tests
- je n'ai pas vu la différence entre les deux pages (font1 et font2)
- il me semble qu'il manque à cette page de test une adaptation au français : il faudrait rajouter des accents "é ù ê è à"... et aussi "ç".

@Schbler
1/ TextBridge
- peux-tu indiquer comment tu as procédé pour installer TextBridge,
- et avec quelle version ?
- ne disposes-tu pas des modules de langues (qu'on peut installer à partir du CD) ? (en préselectionnant "français", je n'ai pas eu de problème avec des "à" devenant "ä" lors de mes utilisations antérieures de ce logiciel).
2/ pour Kooka
- il me semble que le format d'enregistrement conseillé pour réaliser de la ROC/OCR est le format "png"... mais je n'ai pas essayé en "bmp", c'est peut-être pareil (?).
- pour la mise en page, il y a possibilité de choisir un "mode d'analyse de la disposition", en bas de la fenêtre "Reconnaissance optique de caractères - Kooka", avant de "démarrer la ROC" :
- soit "Pas de détection de la disposition"
- soit "Détection des colonnes"
- soit "Détection complète de la disposition".
- le choix de l'encodage et celui du dictionnaire : je pense aussi qu'il a beaucoup d'importance. J'ai testé, et indiqué ce qui suit dans le wiki (documentation) :

Note : à l'étape 10, on peut activer la vérification orthographique avant de démarrer la ROC; il faut ouvrir l'onglet "Vérification de l'orthographe", cocher "Activer la vérification de l'orthographe" et sélectionner :
1. Client : Aspell (ce qui sélectionne automatiquement le dictionnaire français)
2. Encodage : ISO 8859-1
Cette vérification orthographique permet de traiter immédiatement les mots non reconnus sans avoir à utiliser ensuite le correcteur orthographique d'un logiciel de traitement de texte. Mais c'est une correction que certains trouvent laborieuse...

Mais - outre que ces choix ne sont pas conservés par défaut - je n'ai pas réussi à utiliser correctement cette possibilité.

La sélection de "Aspell" entraîne le choix par défaut du dictionnaire "Français (40-only)", mais en déroulant la liste des dictionnaires, on voit qu'il est possible de sélectionner d'autres dictionnaires français : "Français 40", "Français 60", "Français 60-only", "Français 80", "Français 80-only", "Français", "Français - 40", "Français - 60", "Français - 80", "Français - only". Quelqu'un sait-il à quoi correspond chacun de ces dictionnaires... et quel est celui qui conviendrait le mieux à du "Français-France" ?

Par ailleurs, en Aspell +"Français (40-only)", Kooka ne reconnaît pas les accents... ce qui rend la comparaison "résultat de la ROC/dictionnaire" impossible, et empêche de fait toute vérification orthographique... Il y a sans doute un truc que je n'ai pas pigé :

Dernière modification par Sorbus (Le 10/02/2007, à 15:22)

Schbler · Le 11/02/2007, à 21:23

J'ai la version TextBridge Pro 9.0, achetée il y a 7 ans en Allemagne. Je l'ai installé simplement sous wine. Il m'indiquait que cette evrsion n'étaot pas compatible avec la version de Windows que j'utilisais (je suis uniquement sous Ubuntu). J'ai refusé la mise à jour et il s'est bien loggé sous wine. Je ne pense pa avoir le choix de la langue, ou, du moins, je ne l'ai jamais trouvé (l'ai-je vraiment cherché ???). Lorsque j'utilisais ce programme sous Windows, j'ai rentré petit à petit les mots français dans le dictionnaire, c'est comme cela qu'il a su me faire un bon travail, d'autant que j'utilisais ausii bien des textes en allemand qu'en français.

grendel · Le 12/02/2007, à 18:25

Bonjour à tous,
je suis en train de vous écrire pendant que Xsane enregistre une tentative d'OCR sur une page A4 en 300 DPI en niveau de gris.
Je rejoins l'avis général, l'OCR sous UNIX c'est loin d'être le pied.
D'après mes différents tests, qui recoupent les votre, la meilleure solution se situe à 300DPI en NG. C'était déjà le cas quand je travaillais sous Mac.
En revanche, le problème c'est ici le codage des caractères et le dictionnaire. Je ne parviens pas à trouver un bon système pour sauvegarder les accents.
ISO 8859-1 est sensé le faire, et le fait pour des imports .CSV sous OO2, mais pas là. UTF 8 n'a pas l'air plus efficace mais j'ai encore trop d'erreur de reconnaissance pour savoir si c'est l'encodage ou la précision qui est en cause.

Je tourne sous EDGY avec XSane, j'ai lu avec intérêt la partie sur Kooka, j'ai bien essayé de l'utiliser mais je ne trouve pas l'endroit où ocrad s'est installé (via synaptic). Pire je ne trouve meme pas comment lancer la numérisation avec kooka, qui a planqué le bouton!!!!!!!!!!!!

Bon ,le temps d'écrire tout ça et j'ai pu récupérer mon fichier. Résultat, davantage d'accents avec un codage UTF 8 mais encore beaucoup trop d'erreurs. Pour moi ce n'est pas utilisable car je dois faire numériser des textes divers par plusieurs profs pour pouvoir faire travailler un gamin quasi aveugle. Ca doit être simple et rapide sinon ils ne marcheront pas et pas question de faire traduire les textes en braille.

Si quelqu'un pouvait me donner la clef du champ d'ocrad, je veux bien faire tous les tests avec kooka.

Je pense que XSane ne pourra pas être une solution si on ne peut pas utiliser de dictionnaire en parallèle.:|

Schbler · Le 12/02/2007, à 18:36

ocrad est dans /usr/bin et est lancé par kooka lorsque l'on demande la reconnaissance de caractères.

grendel · Le 12/02/2007, à 19:01

Bon ça y est j'y suis, je fais le spremiers test sur kooka.
Première impression, c'est plus rapide. Toujours en 300 DPI en gris. Sur le même texte le résultat semble plus propre mais il y a autant d'erreur de reconnaissance en GOCR. En mode OCRAD c'est la cata, c'est une interprétation basée sur une langue venue d'ailleurs qui ressemblerait à du slave;
Je reste en GOCR et je teste plusieurs encodages mais la procédure est shintée car il ne peut pas utiliser le dictionnaire. Il ne me propose que ISpsell par défaut et de toute façon m'annonce à la fin qu'il ne peut pas tourner sur ce système.
Je ne trouve rien sur les dictionnaires dans la configuration de kooka.

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 22/11/2006, à 20:08

Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#2 Le 09/12/2006, à 15:40

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#3 Le 09/12/2006, à 19:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#4 Le 17/12/2006, à 23:44

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#5 Le 18/12/2006, à 05:00

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#6 Le 03/02/2007, à 09:28

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#7 Le 03/02/2007, à 16:08

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#8 Le 06/02/2007, à 16:41

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#9 Le 06/02/2007, à 16:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#10 Le 07/02/2007, à 13:34

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#11 Le 07/02/2007, à 18:28

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#12 Le 07/02/2007, à 18:36

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#13 Le 09/02/2007, à 10:17

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#14 Le 09/02/2007, à 11:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#15 Le 09/02/2007, à 17:27

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#16 Le 09/02/2007, à 17:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#17 Le 10/02/2007, à 10:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#18 Le 10/02/2007, à 11:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#19 Le 10/02/2007, à 11:55

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#20 Le 10/02/2007, à 11:55

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#21 Le 10/02/2007, à 14:49

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#22 Le 11/02/2007, à 21:23

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#23 Le 12/02/2007, à 18:25

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#24 Le 12/02/2007, à 18:36

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#25 Le 12/02/2007, à 19:01

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums