Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

hector · Le 05/11/2007, à 01:10

Bon alors la compilation d'ocropus: je ne m'en sors pas, il y a 3 trucs à compiler avant (fts, lua et tolua), lua et tolua me résistent ...
Si quelqu'un y arrive, qu'il nous tienne au courant , merci!

Dernière modification par hector (Le 05/11/2007, à 11:19)

hector · Le 05/11/2007, à 02:58

Bon j'ai fait un brouillon de wiki pour l'apprentissage , à améliorer les jours qui suivent; n'hésitez pas à intervenir!

butet andré · Le 01/01/2008, à 18:50

Bonjour,
Pourriez vous SVP m'indiquer un logiciel simple à manipuler en open source, permettant, à partir d'un document ancien pas forcémment lisible, mais visualisé à l'écran, de faire une reconnaissance de caractères, et de transcrire ce texte dans un format lisible, word ou autre; avec capture d'écran du document original
Merci beaucoup

Sorbus · Le 01/01/2008, à 19:33

Ce type de reconnaissance de caractères, sur des documents anciens et peu lisibles, est très difficile à réaliser. Quel système d'exploitation utilisez-vous : Windows ? Mac ? Linux ?

Dernière modification par Sorbus (Le 01/01/2008, à 19:33)

AndrÃ© BUTET · Le 01/01/2008, à 19:53

J'utilise vista premium

AndrÃ© BUTET · Le 01/01/2008, à 19:56

j'utilise windows et vista premium sur un nouvel ordi

Sorbus · Le 01/01/2008, à 20:01

Dans ce cas, il faut consulter un forum spécialisé sur Vista, car ici, c'est un forum spécialisé pour Linux. Les applications ne sont pas les mêmes, et nous ne pourrons pas beaucoup vous aider. Bon courage

AndrÃ© BUTET · Le 02/01/2008, à 12:30

Merci de votre réponse et de votre sympathie

zarer · Le 07/01/2008, à 23:51

André BUTET a écrit :

j'utilise windows et vista premium sur un nouvel ordi

Bonsoir André,

Sinon si l'expérience du Libre et du free ride te tente, Tesseract 2.01 couplé avec gscan2pdf ça fait des merveilles !

@+

Sorbus · Le 12/01/2008, à 16:10

@zarer,
Merci pour le lien et les informations. Je corrige juste un élément de ce qui est dit dans le lien :

Après avoir scanné mes belles petites feuilles, ni une ni deux, jâ€™ai lancé kooka. Résulat : une vraie calamité ! Des signes cabalistiques en guise de texte !

Kooka avec quel moteur OCR ?

S'il s'agit de textes correctement imprimés, Kooka (+ ocrad) donne un résultat correct. Il s'agit seulement d'une question de réglage et de configuration. cf. http://doc.ubuntu-fr.org/ocr#kooka

Mais il est vrai que tesseract donne des résultats meilleurs que Kooka (+ ocrad), du moins si on compare tesseract 2.01 avec les versions de Kooka et ocrad actuellement disponibles dans les dépà´ts Ubuntu. Mais pour effectuer une juste comparaison, il faudrait tester les versions les plus récentes de Kooka et ocrad (Je ne sais pas si Kooka et ocrad ont évolué beaucoup ?).

Ceci dit, grand merci aux "membres de mailing-list de Linux On The Root (b52, Dom, Dzef, Leonux)" (et zarer ?) d'avoir très sérieusement travaillé la question. Il nous semble aussi sur ce fil de discussion que tesseract devient une bonne solution de ROC sous Linux... cf. ce que nous en avons tiré pour la documentation Ubuntu francophone http://doc.ubuntu-fr.org/tesseract-ocr
Ceci est à compléter et à améliorer. Plus précisément, nous avons butté pour l'instant sur la partie "Amélioration - apprentissage"... Si vous avez des pistes du cà´té de "Linux on the root", ça nous intéresse

Pour l'instant, perso, j'utilise tesseract en ligne de commande... Ce n'est pas très compliqué... La solution gscan2pdf m'intéresse bien sûr... Mais faute de temps, il est possible que je patiente jusqu'à Hardy, en espérant que la solution tesseract 2.01 + gscan2pdf soit disponible dans les dépà´ts...

Dernière modification par Sorbus (Le 12/01/2008, à 16:18)

Sorbus · Le 12/01/2008, à 16:57

Trop curieux... J'ai essayé... Comme tesseract 2.01 est déjà installé sur mon ordi, j'ai utilisé le shell de Leonux un peu modifié :

# !/bin/sh
## Script dâ€™installation pour la M.-L. linonroot-dev ## par Leonux
## Téléchargement des paquets
## wget http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-1_i386.deb
wget http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.19_all.deb
## Installation de tesseract_2.02-1_i386.deb (b52) et de gscan2pdf
## sudo dpkg --unpack tesseract_2.02-1_i386.deb
## sudo apt-get install -f
sudo dpkg --unpack gscan2pdf_0.9.19_all.deb
sudo apt-get install -f

L'installation semble s'être faite sans problème. Par contre, deux problèmes lorsque j'essaye d'utiliser gscan2pdf :

Au démarrage :

Là , pas trop grave sans doute, il doit suffire d'ajouter les bons paquets.

Et lorsque je tente de scanner :

Là ... je ne sais pas quoi faire.

Dernière modification par Sorbus (Le 12/01/2008, à 21:23)

futfut · Le 14/01/2008, à 01:04

Bonjour,

Je cherche à faire de la reconnaissance de caractère sur un tableau....
J'ai testé gocr sans succès pour le moment.
Il s'agit d'un tableau de chiffre et je pense que les bordures me posent pas mal de problème.

En effet, c'est un tableau de chiffre et si je tente la reconnaissance sur une cellule sans bordure, cela fonctionne. La même cellule avec bordure, elle ne fonctionne absolument pas.
j'ai utilisé une commande su type

djpeg -pnm cas2.jpg |gocr -o cas2.txt

avez vous une solution avec gocr ou un autre ?

Second problème, étant donné que la police du document scanné se veut exotique , les 6 et les 9 ne passent pas. Est on capable d'améliorer cela? de faire une sorte d'apprentissage ?

Merci d'avance!

Sorbus · Le 14/01/2008, à 09:43

Tu peux essayer Kooka+ocrad
ou mieux (je pense) tesseract 2.01. Il te faudra d'abord l'installer, mais ce n'est pas très compliqué. Je n'ai jamais essayé sur des tableaux. Si tu veux, pour voir, mets une capture d'image de ton tableau de chiffres (ou d'une partie avec des 6 et des 9) dans un post. Et j'essaye ce soir avec tesseract 2.01... Je te dirai le résultat.

Dernière modification par Sorbus (Le 14/01/2008, à 09:43)

zarer · Le 16/01/2008, à 00:55

Salut Sorbus,

Rapidement... je dois aller au dodo et je ne sais si j'aurai le temps de répondre dans les jours qui viennent.

Sorbus a écrit :

@zarer,
Merci pour le lien et les informations. Je corrige juste un élément de ce qui est dit dans le lien :
Après avoir scanné mes belles petites feuilles, ni une ni deux, jâ€™ai lancé kooka. Résulat : une vraie calamité ! Des signes cabalistiques en guise de texte !
Kooka avec quel moteur OCR ?

OCR et ocrad. Mais je n'ai pas voulu m'étendre sur la question, vu les excellents résultats obtenus avec Tesseract par tous les membres de la M.-L. qui ont bien voulu tenter l'expérience.

Sorbus a écrit :

S'il s'agit de textes correctement imprimés, Kooka (+ ocrad) donne un résultat correct. Il s'agit seulement d'une question de réglage et de configuration. cf. http://doc.ubuntu-fr.org/ocr#kooka

Certainement. Mais, comme tu le verras au bas de mon article, je suis en dualboot (bientà´t un trial avec PureOslight) et les résultats sont encore meilleurs sous Debian Lenny avec Tesseract+gscan2pdf. Je pense que la situation évoluera grandement sous Ubuntu quand les paquets les plus récents seront intégrés. En attendant, la solution que nous avons testée les uns et les autres semblent permettre à tous les testeurs d'obtenir de très bons résultats sous Ubuntu avec les paquets que nous proposons.

Sorbus a écrit :

Mais il est vrai que tesseract donne des résultats meilleurs que Kooka (+ ocrad), du moins si on compare tesseract 2.01 avec les versions de Kooka et ocrad actuellement disponibles dans les dépà´ts Ubuntu. Mais pour effectuer une juste comparaison, il faudrait tester les versions les plus récentes de Kooka et ocrad (Je ne sais pas si Kooka et ocrad ont évolué beaucoup ?).

Pas d'infos là -dessus...

Sorbus a écrit :

Ceci dit, grand merci aux "membres de mailing-list de Linux On The Root (b52, Dom, Dzef, Leonux)" (et zarer ?) d'avoir très sérieusement travaillé la question. Il nous semble aussi sur ce fil de discussion que tesseract devient une bonne solution de ROC sous Linux... cf. ce que nous en avons tiré pour la documentation Ubuntu francophone http://doc.ubuntu-fr.org/tesseract-ocr
Ceci est à compléter et à améliorer. Plus précisément, nous avons butté pour l'instant sur la partie "Amélioration - apprentissage"... Si vous avez des pistes du cà´té de "Linux on the root", ça nous intéresse

Les membres de la M.-L. de Linux On The Root qui ont participé sont ceux cités... moi compris. On n'est jamais trop pour bien faire... Si vos efforts conjugués et les nà´tres permettent d'améliorer le confort des utilisateurs du monde libre c'est un mieux. D'ailleurs, cette solution, soit dit en passant à également été testée sur ArchLinux en 64 bits avec des résultats tout aussi excellents...

Pour ce qui est de l'apprentissage, Dom (de la M.-L. de Linux On The Root) est en train de s'y pencher sérieusement... Je vais le prévenir de ce fil ; il devrait venir faire un p'tit saut sous peu.

Sorbus a écrit :

Pour l'instant, perso, j'utilise tesseract en ligne de commande... Ce n'est pas très compliqué... La solution gscan2pdf m'intéresse bien sûr... Mais faute de temps, il est possible que je patiente jusqu'à Hardy, en espérant que la solution tesseract 2.01 + gscan2pdf soit disponible dans les dépà´ts...

Ce sera certainement le cas, du fait de son intégration parfaite sous Debian Lenny. D'ailleurs, le dev de gscan2pdf devrait aussi, suite à nos échanges, corriger quelques petits bugs pour Ubuntu.

@+

Edit : j'ai lu quelque part un autre développement intéressant : gnome-scan qui, si je ne m'abuse tournerait avec le même moteur, Tesseract. J'ai par ailleurs testé moi aussi OCRopus, c'est encore Rock'n Roll, mais les résultats sont excellents !

Dernière modification par zarer (Le 16/01/2008, à 12:05)

Sorbus · Le 16/01/2008, à 08:38

Merci pour ces précisions zarer,

Il est bien évident que nous sommes prêts à conjuguer nos efforts (je parle pour moi, mais je pense que d'autres membres de ce fil écriraient la même chose) avec les và´tres pour permettre d'améliorer le confort d'utilisation de la ROC/OCR du monde libre.

Nous espérons pouvoir un jour effectuer de la ROC sur des pages de "vieux" dictionnaires (aux caractères pas forcément très nets... et contraste moyen)... d'oà¹ l'intérêt pour nous des fonctions d'amélioration/apprentissage...

Car nous cherchons aussi par ailleurs à augmenter le nombre de dictionnaires libres disponibles en ligne... pour Linux.

Dernière modification par Sorbus (Le 16/01/2008, à 11:07)

zarer · Le 16/01/2008, à 12:02

Salut Sorbus,

Sorbus a écrit :

Trop curieux... J'ai essayé... Comme tesseract 2.01 est déjà installé sur mon ordi [...]
L'installation semble s'être faite sans problème. Par contre, deux problèmes lorsque j'essaye d'utiliser gscan2pdf

As-tu toujours les problèmes que tu avais rencontrés avec gscan2pdf ?

Pour ce qui est du premier :

Sorbus a écrit :

Au démarrage :
http://www.enregistrersous.com/images2/ … 155617.png
Là , pas trop grave sans doute, il doit suffire d'ajouter les bons paquets.

Normalement, celui-là doit se régler avec l'installation des dépendances de gscan2pdf : djvu-bin, etc.

Sorbus a écrit :

Et lorsque je tente de scanner :
http://www.enregistrersous.com/images2/ … 155735.png
Là ... je ne sais pas quoi faire.

Pour ce deuxième problème, je crois là aussi qu'il faut regarder du cà´té des dépendances. Le message d'erreur pointe vers scanimage donc sane...

Pour avoir des précisions, je pense qu'il serait utile de lancer gscan2pdf depuis le terminal, de reproduire la procédure que tu as lancée et de nous coller les erreurs en retour... ça peut être utile à d'autres. J'ajouterai tout ça à l'article sur notre site par la suite.

@+

Sorbus · Le 16/01/2008, à 23:26

Je précise donc :
--> je suis sous Ubuntu Gutsy,
--> j'ai installé tesseract 2.01 il y a quelques mois comme indiqué sur la page tesseract de la documentation Ubuntu francophone,
--> j'ai installé gscan2pdf il y a quelques jours en lançant :

wget http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.19_all.deb
sudo dpkg --unpack gscan2pdf_0.9.19_all.deb
sudo apt-get install -f

--> suite aux indications du premier message d'erreur mentionné 6 posts plus haut, j'ai installé par Synaptic les deux paquets manquants : djvulibre-bin et unpaper... et je n'ai plus ce message d'erreur.
--> lorsque j'ai voulu à nouveau scanner une première fois via gscan2pdf, j'ai eu à nouveau le second message d'erreur mentionné 6 posts plus haut...
Mais lorsque j'ai réessayé une deuxième et une troisième fois de scanner, je n'ai plus eu ce message d'erreur, et le scanner a été lancé... le scan réalisé... et la ROC s'est faite (correcte à condition de modifier la résolution dans l'onglet Scan Options... car par défaut, elle est à 50... et la ROC est mauvaise... en réglant à 300, c'est bon... mais c'est sans doute à ajuster selon la nature du document scanné).
Donc, plus de problème... ça a l'air de rouler...

Je vais vérifier en relançant tout si le second message d'erreur a bien définitivement disparu... Je vais relire ceci... pour revoir notamment ce qui est dit au sujet du choix de la langue... et il reste à trouver quelles sont les meilleurs options pour une reconnaissance optimale. Puis à travailler sur amélioration/apprentissage...

Mais a priori, très bonne association en effet entre tesseract et gscan2pdf... tesseract dispose donc déjà d'une bonne interface graphique. A suivre

Edit, en fait, j'ai encore le second message d'erreur chaque fois que je "réveille" le scanneur (un bon vieil Epson Perfection 1200S)... Mais ce n'est plus tout à fait le message de 6 posts plus haut, contrairement à ce que j'ai écris... Voici Mais c'est un bug mineur... Malgré ce message, le scanneur fonctionne...

Dernière modification par Sorbus (Le 17/01/2008, à 00:00)

Quid · Le 17/01/2008, à 16:42

Et est-ce que la sauvegarde dans gscan2pdf au format djvu fonctionne pour toi ?

Sorbus · Le 17/01/2008, à 18:42

Je n'avais pas essayé... puisque je m'intéressais surtout à la reconnaissance de caractères immédiate pour la transférer dans un traitement de texte... sans enregistrer ensuite l'image scannée sous l'un ou l'autre format.

Mais je viens d'essayer de scanner, puis après avoir sélectionné l'image de faire "fichier --> enregistrer en DjVu"... puis "Actuel --> Enregistrer"... puis je nomme le fichier et "Enregistrer"...

Oui, l'enregistrement de l'image scannée au format DjVu fonctionne très bien.

Dernière modification par Sorbus (Le 17/01/2008, à 19:03)

zarer · Le 19/01/2008, à 09:37

Salut Sorbus,

Sorbus a écrit :

Il reste à trouver quelles sont les meilleurs options pour une reconnaissance optimale. Puis à travailler sur amélioration/apprentissage...
Mais a priori, très bonne association en effet entre tesseract et gscan2pdf... tesseract dispose donc déjà d'une bonne interface graphique. A suivre

J'ai mis au courant Dom de ce sujet. En ce moment, il a de gros problèmes de connexion ADSL avec FT.

Il travaille actuellement sur l'apprentissage du "vieux latin" avec Tesseract... Il fera un tour dans le secteur quand il aura réglé ses problèmes d'ADSL...

Sorbus a écrit :

Edit, en fait, j'ai encore le second message d'erreur chaque fois que je "réveille" le scanneur (un bon vieil Epson Perfection 1200S)... Mais ce n'est plus tout à fait le message de 6 posts plus haut, contrairement à ce que j'ai écris... Voici http://www.enregistrersous.com/images2/ … 225550.png Mais c'est un bug mineur... Malgré ce message, le scanneur fonctionne...

Bonne nouvelle... Si tu peux utiliser ton vieux scanner, le bug est en effet mineur. Mais il serait bon de le signaler dans notre article et/ou au développeur de gscan2pdf.

@+

Sorbus · Le 19/01/2008, à 11:02

Je viens d'essayer à nouveau. Ce matin, je n'ai aucun message d'erreur. Donc, avant de signaler quelque chose, il me faut un peu de temps... pour voir si ce message réapparait de temps en temps et, si c'est le cas, pour essayer de comprendre quels sont les facteurs qui le font apparaitre...

Merci d'avoir informé Dom de ce fil de discussion. Ici, c'est hector qui a le plus travaillé cette question de l'apprentissage... et il ne manquera pas je pense de revenir faire un tour par ici.
@+

Dernière modification par Sorbus (Le 19/01/2008, à 11:02)

Sorbus · Le 19/01/2008, à 15:12

Tests...
J'ai pris un peu de temps ce matin pour réaliser quelques tests. Il reste un problème de choix de la langue pour la ROC avec gscan2pdf.

Une ROC tesseract avec gscan2pdf sur mon texte de test semble équivalente à la commande :

tesseract   ~/Desktop/docscanné.tif  docreconnu

sans mention de langue,

soit deux à trois fois plus d'erreurs de reconnaissance que le résultat de la commande :

tesseract   ~/Desktop/docscanné.tif  docreconnu  -l  fra

Mais on peut espérer que ce problème soit bientà´t corrigé.

Dernière modification par Sorbus (Le 19/01/2008, à 15:22)

zarer · Le 19/01/2008, à 16:26

Salut Sorbus,

Sorbus a écrit :

Tests...
J'ai pris un peu de temps ce matin pour réaliser quelques tests. Il reste un problème de choix de la langue pour la ROC avec gscan2pdf.

Je viens de réaliser les mêmes tests que toi et en arrive aux mêmes conclusions que toi. J'ai affiché les tests sur la page dédiée à Tesseract.

Bon bon bon... Comme tu le dis : espérons que ce "méchant" bug sera corrigé rapidement !

Sorbus · Le 19/01/2008, à 16:37

Salut !

Problème résolu chez moi...
... en relisant ceci :

Si tesseract 2.01 est compilé de la source, il met les fichiers de langue par défaut dans/usr/share/tessdata. Quand j'ai fait l'emballage Debian/Ubuntu, je les ai mis dans/usr/share/tesseract-ocr/tessdata et c'est oà¹ gscan2pdf v0.9.19 regarde pour voir quelles langues sont installées. Dans la sortie prochaine, gscan2pdf regardera dans les deux chemins.

(traduction du texte anglais qui est sur la page de Linux on the root.)

J'ai vérifié... Le répertoire tessdata était chez moi dans /usr/local/share/

J'ai créé

sudo mkdir /usr/share/tesseract-ocr

et j'ai copié :

sudo cp -R /usr/local/share/tessdata/ /usr/share/tesseract-ocr/

Pour faire bonne mesure, j'ai aussi fait :

sudo cp -R /usr/local/share/tessdata/ /usr/share/

Mais je pense que cette dernière copie était inutile. Je vérifierai en la supprimant.

De fait, je peux maintenant sélectionner dans gscan2pdf les langues que j'ai installées (français, anglais et allemand)... Je n'ai plus le temps de faire un test maintenant... Mais je pense que c'est bon.

@+

zarer · Le 19/01/2008, à 17:06

Salut Sorbus !

Je confirme : tout est nickel !

Sorbus a écrit :

[...]
J'ai créé
sudo mkdir /usr/share/tesseract-ocr
et j'ai copié :
sudo cp -R /usr/local/share/tessdata/ /usr/share/tesseract-ocr/
Pour faire bonne mesure, j'ai aussi fait :
sudo cp -R /usr/local/share/tessdata/ /usr/share/
Mais je pense que cette dernière copie était inutile. Je vérifierai en la supprimant.

Cette copie est inutile.

Sorbus a écrit :

De fait, je peux maintenant sélectionner dans gscan2pdf les langues que j'ai installées (français, anglais et allemand)... Je n'ai plus le temps de faire un test maintenant... Mais je pense que c'est bon.
@+

Idem ! J'ai donc récupéré la reconnaissance en français avec la sélection sous gscan2pdf ! Super !

Je vais ajouter ça au tuto !

@+

Merci !

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#76 Le 05/11/2007, à 01:10

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#77 Le 05/11/2007, à 02:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#78 Le 01/01/2008, à 18:50

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#79 Le 01/01/2008, à 19:33

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#80 Le 01/01/2008, à 19:53

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#81 Le 01/01/2008, à 19:56

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#82 Le 01/01/2008, à 20:01

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#83 Le 02/01/2008, à 12:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#84 Le 07/01/2008, à 23:51

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#85 Le 12/01/2008, à 16:10

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#86 Le 12/01/2008, à 16:57

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#87 Le 14/01/2008, à 01:04

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#88 Le 14/01/2008, à 09:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#89 Le 16/01/2008, à 00:55

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#90 Le 16/01/2008, à 08:38

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#91 Le 16/01/2008, à 12:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#92 Le 16/01/2008, à 23:26

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#93 Le 17/01/2008, à 16:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#94 Le 17/01/2008, à 18:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#95 Le 19/01/2008, à 09:37

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#96 Le 19/01/2008, à 11:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#97 Le 19/01/2008, à 15:12

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#98 Le 19/01/2008, à 16:26

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#99 Le 19/01/2008, à 16:37

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#100 Le 19/01/2008, à 17:06

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums