Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

bewidia · Le 12/02/2010, à 10:08

Merci pour vos réponses.

Je vais essayer de désinstaller par le Synaptic et installer le b52. Je ne pensais pas que la langue était si importante, je pensais que c'était juste pour reconnaitre certains caractères (accents ou autre) ...

Mon projet, c'est de faire de l'OCR en web : sur une image, l'utilisateur drag/drop une zone, je récupère les coordonnées (en javascript), j'appelle un script PHP en ajax qui appelle(rait) Tesseract avec les paramètres qui vont bien et ça me retourne le texte. Sauf que si on ne peut pas passer les coordonnées à Tesseract, il faut que je régénère en PHP un fichier image temporaire qui sera analysé.

Est-ce que Tesseract est aussi performant (une fois rôdé ?) que des solutions proprietaires (Abbyy, readiris etc.) ?

Edit : niquel, ça fonctionne !
Par contre Tesseract n'ouvre que le Tif ? Parce que PHP ne peut pas créer d'image Tif à priori ...

Dernière modification par bewidia (Le 12/02/2010, à 10:23)

Sorbus · Le 12/02/2010, à 11:46

@bewidia

OK, vu ton projet, tu as besoin de fonctionner en ligne de commande. Tesseract ne fonctionne en ligne de commande que sur du Tif oui. Mais il est possible de convertir un fichier d'un autre format vers Tif via imagemagick par exemple. C'est ce que fait gscan2pdf pour pouvoir utiliser Tesseract.

P.S. : pour pouvoir observer dans un terminal ce que fait gscan2pdf, tu lances ce logiciel par la commande :

gscan2pdf --debug

... puis tu observes ce qui est nouveau dans le terminal après chaque action en graphique dans l'interface de gscan2pdf.

> importation d'un fichier PNG ou autre dans gscan2pdf
> utilisation de l'outil "ROC" (option Tesseract) sur ce document...
(tu verras qu'à ce moment là, il utilise une commande "convert fichier.png fichier.tif", avant de lancer Tesseract sur le fichier.tif.)

Dernière modification par Sorbus (Le 12/02/2010, à 15:23)

Sorbus · Le 12/02/2010, à 15:30

Est-ce que Tesseract est aussi performant (une fois rôdé ?) que des solutions proprietaires (Abbyy, readiris etc.) ?

A ce sujet, voir ici, et la discussion qui suit.

Pour la question du "rôdage", j'avoue que je ne maîtrise pas trop... pas assez testé personnellement, et il me semble que ce n'est pas simple. A voir.

bewidia · Le 15/02/2010, à 12:21

@Sorbus
Merci pour tes réponses !

J'ai réussi à faire ce que je voulais, ça marche niquel !

D'une page web, l'utilisateur trace une zone rectangulaire avec la souris, je récupère en javascript (avec jQuery) les coordonnées, je fais un appel PHP en Ajax, le script découpe l'image et ne garde que la portion délimitée, enregistre l'image, lance l'outil de conversion pour passer du format image au format TIF, et lance Tesseract.

Par contre, il semblerait qu'on ne puisse piloter un scanner sous Linux sans passer par une interface graphique et un Twain. Je voudrais, dans le cadre d'un ERP, tout gérer depuis mon interface web et "piloter" le scanner pour lui passer des infos. Quelqu'un a déjà fait ça ? (si je suis trop HS, j'ouvre un nouveau sujet ...)

Sorbus · Le 15/02/2010, à 13:30

@bewidia
Pour cette dernière question, je pense en effet qu'il vaut mieux ouvrir un nouveau sujet : tu auras plus de chances d'obtenir des réponses... Perso, pas assez compétent sur le sujet. A tout hasard, regardes du côté de scanimage.

P.S. : Quand il sera finalisé, ton travail sera-t-il rendu disponible pour tous ?

Dernière modification par Sorbus (Le 15/02/2010, à 13:32)

bewidia · Le 15/02/2010, à 15:05

OK. J'ai jeté un oeil à Scanimage, visiblement ça ne fonctionne qu'en local (pas de scan ethernet), mais à priori sous Linux il n'y a pas d'autres solutions.
Mon travail est pour un client, donc il ne sera pas utilisable/disponible. Mais je donnerai le résultat de mes recherches et les étapes pour y parvenir

Sorbus · Le 15/02/2010, à 15:18

Mon travail est pour un client, donc il ne sera pas utilisable/disponible. Mais je donnerai le résultat de mes recherches et les étapes pour y parvenir.

OK ! Merci
Si je comprends bien la finalité, il s'agit d'obtenir facilement du format texte reconnu directement à partir d'une zone de texte sélectionnée "à la souris" sur des pages web ? A quels types d'utilisateurs (pour faire quoi) cela sert-il ?

J'ai jeté un oeil à Scanimage, visiblement ça ne fonctionne qu'en local

Rien ici ?

Dernière modification par Sorbus (Le 15/02/2010, à 15:23)

bewidia · Le 15/02/2010, à 16:08

La finalité, c'est de scanner/ocriser des documents, de les qualifier et de les enregistrer dans une BDD. Le tout de manière simple et le plus guidée possible pour que l'utilisateur ai le moins de choses à faire.

Là je galère avec mon environnement de développement (Ubuntu dans Virtual Box) pour reconnaitre et utiliser un scanner USB (le périphérique ne veut pas monter, VB me dit qu'il est déjà utilisé).

Scanimage, ça me botte bien, ça veut dire que je peux utiliser ce programme depuis mon Apache pour faire ce que je veux. Mais je n'arrive pas à le tester ...

Le lien que tu m'as donné, à priori, c'est un scan branché en USB et partagé, moi je pensais à un scanner ethernet natif (je ne sais même pas si ça existe, en fait)

Sorbus · Le 15/02/2010, à 17:18

J'ai du mal à suivre...

"Mon projet, c'est de faire de l'OCR en web : sur une image, l'utilisateur drag/drop une zone"...

... il s'agit de faire de l'OCR en ligne ?
Mais je ne vois pas où et comment intervient une numérisation de documents avec un scanner ?

"La finalité, c'est de scanner/ocriser des documents, de les qualifier et de les enregistrer dans une BDD."

Si les documents sont déjà numérisés, je comprends, mais alors il n'y a pas besoin de scanneur.

Si les documents ne sont pas déjà numérisés, je ne vois pas comment l'utilisateur peut le faire avec un scanneur à distance... !?

Mais bon... on s'éloigne du sujet, et je ne vais pas t'être d'un grand secours là-dessus.

Quant à ton environnement de travail : Ubuntu virtualisé... avec scanneur branché en usb : il faudrait que tu cherches des infos du côté de la documentation ou des sujets du forum sur Virtualbox... Vérifier en particulier que l'utilisation des prises usb est possible et activée... Mais c'est encore un autre sujet... J'arrête donc là pour ma part sur ces différents points, mais n'hésite pas à ouvrir d'autres sujets si besoin pour chaque question.

Sorbus · Le 15/02/2010, à 17:28

Je signale un petit utilitaire nommé "tesseract-gui" non fonctionnel sous Ubuntu à partir de Jaunty (car fonctionne avec python-2.5 et non 2.6), donc valable sous Ubuntu jusqu'à Intrepid ainsi que sous Debian Lenny. Bien sûr, comme il indiqué comme dépendance "tesseract-ocr", il ne peut être installé avec le Tesseract de "b52". Il a donc quelques limitations :-/

Mais ça montre qu'il y a quelques recherches du côté des interfaces graphiques pour Tesseract (en complément de ce que nous connaissons : gscan2pdf ou xsane+xsane2tess)

Tesseract-gui-2.5 est disponible depuis hier 14/02/2010
Les infos ici.
Le deb (all-deb) - à ne pas installer sous Jaunty ni Karmic ni suivants - à ne pas installer si tesseract "b52" est installé - est là.

Dernière modification par Sorbus (Le 15/02/2010, à 17:29)

Sorbus · Le 15/02/2010, à 19:15

Le petit script de Michel Astre complété par Bushman02 étant très intéressant, j'ai ajouté ceci dans la documentation Ubuntu francophone sur Ocropus.

Merci

P.S. : Ajout similaire dans la documentation Tesseract avec un petit script équivalent (sauf qu'il ne permet de lancer la ROC que sur un seul fichier PNG ou JPG à la fois); c'est ici.

Et fait nouveau, un paquet "Ocropus-b52" tout neuf permet maintenant d'installer Ocropus avec une installation de Tesseract par le deb de "b52". Merci à lui !

Explications ici

Dernière modification par Sorbus (Le 15/02/2010, à 22:17)

Bushman02 · Le 16/02/2010, à 10:29

Ave, Sorbus !
J'ai découvert les dernières avancées à l'exception de Tesseract-gui-2.5.
Bravo et merci à B52 pour sa réactivité, ainsi qu'à toi pour la mise en ligne et les synthèses.
Un seul problème : le petit script adapté pour Tesseract ne fonctionne pas chez moi (Karmic, 64 bits). Je l'ai modifié ainsi :

#!/bin/bash
cd ~/Bureau
# ou cd ~/Desktop
convert *.jpg sortie.tif ;
tesseract sortie.tif sortie -lwt fra > sortie.txt ;
oowriter sortie.txt

et ça marche.

Tenté une comparaison des deux avec le texte Lorem ipsum dolor... : le script Ocropus donne de moins bons résultats que le script Tesseract. Avec ce dernier, j'obtiens la même chose qu'en utilisant gscan2pdf et l'option "français" (voir ci-dessus).
À bientôt.

Dernière modification par Bushman02 (Le 16/02/2010, à 10:30)

Sorbus · Le 16/02/2010, à 20:35

le petit script adapté pour Tesseract ne fonctionne pas chez moi (Karmic, 64 bits).

Il fonctionne chez moi (Jaunty, 64 bits). Mais le tien fonctionne aussi chez moi. Je vais donc remplacer la proposition de la doc par la tienne, puisqu'elle est plus "passe-partout".

[Edit : l'option "-lwt" est cependant propre à Tesseract "b52". Elle est équivalente à l'option "-l" du tesseract des dépôts. Je mets donc les deux (en commentant l'une des lignes)... les usagers comprendront qu'ils ont le choix. De fait, sur le fichier Lorem ipsum, l'option "-l" ne donne rien avec Tesseract "b52" (il faut "-lwt")... Mais l'option "-l" de b52 passe sur d'autres fichiers. Grâce à ta remarque, je découvre que le script permet d'ailleurs de traiter plusieurs fichiers jpg ou png à la fois, comme les scripts pour Ocropus. Je corrige aussi cela dans la doc.]

J'ai découvert les dernières avancées à l'exception de Tesseract-gui-2.5.

Tu peux essayer si tu veux, en utilisant le deb spécial "b52" de Tesseract-gui-2.5. Il permet le fonctionnement de Tesseract-GUI aussi bien avec Python 2.5 (Hardy, Intrepid, Debian Lenny) qu'avec Python 2.6 (Jaunty, Karmic), et il permet aussi l'installation de Tesseract-GUI et son fonctionnement avec un Tesseract installé par le deb de "b52".

Encore merci à Claude "b52", développeur de Xcfa.

J'ai testé Tesseract-GUI "b52" sous Debian Lenny : aucun problème.

Je l'ai testé aussi sous Jaunty. J'ai eu un bug.
J'ai du éditer "tesseract-gui.py",
et remplacer la ligne 525 :
self.btnAutoPrev = gtk.ToggleButton("Auto Resize, False")
par :
self.btnAutoPrev = gtk.ToggleButton("Auto Resize")

Avec cette petite modification, aucun problème non plus sous Jaunty.

Je donne cette indication au cas où. Mais il se peut très bien que ça fonctionne sous Karmic sans cette modification.

L'interface de Tesseract-GUI est pour l'instant en anglais... Mais ça pourrait être bientôt aussi en français...

Dernière modification par Sorbus (Le 16/02/2010, à 21:07)

Bushman02 · Le 16/02/2010, à 22:48

Merci de poursuivre les essais et la mise à jour de la documentation.
Je viens d'installer Tesseract-gui-2.5. Pas de problème de fonctionnement sous Karmic (64) mais, sur le même document, je remarque un plus gros travail du processeur (!) et, surtout, des résultats moins convaincants qu'avec le "script-bureau", ce qui est curieux puisque les deux processus utilisent Tesseract. (N.B. : j'ai effectué la modification que tu suggères dans "tesseract-gui.py" : rien de mieux.)
Quoi qu'il en soit, la ROC sous Linux progresse et se diversifie, c'est l'essentiel : à chacun de faire ses choix selon son matériel.

bewidia · Le 19/02/2010, à 10:32

@Sorbus
Le projet c'est que d'un coté des utilisateurs scannent "bêtement" des documents et les images sont rangés dans un endroit précis (déterminé par une BDD) et que de l'autre des utilisateurs fassent de l'OCR dessus et qualifient le texte.

Pour tesseract, y a t'il des dictionnaires français pour aider à l'OCR ?

Sorbus · Le 20/02/2010, à 15:13

@bewidia
OK, je comprends le projet.

Pour tesseract, y a t'il des dictionnaires français pour aider à l'OCR ?

Il y a des possibilités d'entrainement et certainement d'utilisation de dictionnaires. J'ai vu ça en parcourant rapidement des messages sur la liste de discussion Google de Tesseract. Mais je n'ai pas étudié du tout comment ça marchait. Il faudrait qu'on fasse quelques recherches via des moteurs de recherches sur les forums ou les documentations sur Tesseract en anglais et qu'on teste. Perso, je ne vais plus bien avoir le temps dans les jours qui viennent... Mais avis aux amateurs

P.S. : Petits compléments qui ne répondent pas à la question du dictionnaire, mais à celle de l'apprentissage :
Le paragraphe sur l'apprentissage dans la page Tesseract de la documentation Ubuntu en français.
Mais la seule explication complète est en anglais ici.
Dans sa version 2 (2.03 ou 2.04), Tesseract permet difficilement d'effectuer un entraînement à partir de fichiers-images réels (c'est à dire de fichiers courants sur lesquels on souhaite effectuer la ROC)... On peut le faire, mais cela entraîne souvent des erreurs à cause de l'espacement des caractères. Il est donc préférable de créer son (ses) fichier(s) d'apprentissage pour la/les polices ou la/les langues sur lesquelles on souhaite pouvoir travailler. Le jeu n'en vaut la chandelle que si on a une grande quantité de ROC à effectuer sur le même type de police ou de langue. Il est conseillé de mélanger les lettres, chiffres et autres caractères dans le fichier d'apprentissage, et de ne pas faire une suite de lettres, puis de chiffres, puis de symboles divers. Des exemples de fichiers d'apprentissage (qui ont du être utilisés pour créer les fichiers tesseract-ocr-fra) se trouvent dans les fichiers "boxtiff" pour le français.

Pour le dictionnaire, je pense qu'il faut chercher du côté des fichiers words_list et frequent_words_list. Voir ce paragraphe. Je ne sais pas si de tels fichiers existent déjà quelque part, mais ils seraient sans doute faciles à créer. Pour une liste de mots fréquents, à partir par exemple de celle du site "Polyglotte" pour le français.

Dernière modification par Sorbus (Le 22/02/2010, à 10:06)

Sorbus · Le 22/02/2010, à 12:51

Après avoir testé, j'ai complété le paragraphe sur l'apprentissage dans la documentation. Il s'agit en fait de créer des fichiers de langues adaptés si on a un usage très fréquent de Tesseract sur des langues particulières ou des polices encore non (ou mal) prises en compte pour le français. Ça demande du temps, et pour ceux qui n'ont pas de grandes séries de ROC à effectuer, ça ne vaut pas la peine.

@bewidia,

Dans mon test, j'ai fait des fichiers de langue exactement adaptés à ton fichier "totod". Tu les trouveras ici. Si tu places les fichiers indiqués dans ton dossier tessdata, tu pourras lancer la reconnaissance (en utilisant le code "- l toto" au lieu de "-l fra") sur ton fichier "totod" et constater qu'il n'y a plus d'erreur (aucun "L" ne sera confondu avec un "I" par exemple).

Bien sur, ces fichiers de langue "toto" sont sans aucun intérêt pour la reconnaissance d'autres fichiers, car ils ne comportent pas assez de signes (réalisés à partir d'un seul fichier d'apprentissage incomplet quant au nombre de signes)... Mais ça donne une idée.

Dictionnaires
J'ai réalisé à partir du fichier des mots français fréquents de Polyglotte un fichier comportant les seuls mots (sans les indications de genre), et à partir de celui-ci un fichier fra.freq-dawg.
J'ai remplacé le fichier "fra.freq-dawg" installé par défaut dans mon fichier tessdata (qui a l'air vide, car il ne pèse pas lourd) par mon nouveau fichier. Mais après un ou deux tests de ROC, je n'ai constaté aucune différence dans les résultats. Il faudrait donc creuser la question... Peut-être faut il aussi un fichier fra.word-dawg complet pour observer une amélioration des résultats (celui par défaut dans tessdata semble vide aussi... mais je ne sais pas où trouver un fichier contenant des dizaines de milliers de mots français, avec un seul mot par ligne, en utf-8... et je n'ai plus le temps de chercher...). A toute fin utile, voici les liens vers le fichier texte comportant les seuls mots, et vers le fichier fra.freq-dawg correspondant.

J'espère que d'autres pourront poursuivre les recherches... J'ai maintenant d'autres chantiers importants, je vais donc à nouveau être très discret ici pendant probablement plusieurs semaines voire plusieurs mois... @+

Dernière modification par Sorbus (Le 22/02/2010, à 13:03)

bewidia · Le 23/02/2010, à 15:14

@Sorbus
Merci pour tes retours, je vais prendre le temps de lire tout ça. J'aimerais participer plus aux discussions et tout, mais je manque de temps et je suis déjà charrette sur le projet. Mais dès que le truc est bien en route, je ferais un retour sur tout ce que j'ai fait

nabla · Le 28/02/2010, à 15:42

Bonjour,

Je n'ai pas lu la file de discussion, mais souhaite apporter mon témoignage rapidement.
Je suis Mac-User sur un iMac G5 et utilisateur d'Ubuntu 9.10 installé perso sur mon Dell inspiron 1525.
J'ai acheté un multifonction d'occasion EPSON Stylus Photo RX420.

J'adore Mac mais ... l'OCR ou ROC est à priori une sorte de grand néant ...

Je viens de faire un test avec XSane et gocr ; pas top mais pour du gratos déjà bien.
Allez, les enfants attendront ... je prends 5 minutes pour "installer" et tester de tesseract.

--> Au purée !!! Quasiment pas d'erreur alors que le doc de base a été annoté et gribouillé par ma femme et ma fille ainée.

Je voulais juste faire un retour d'expérience :
- Je suis nul en informatique, juste bon à suivre des tutos bêtement.
- j'ai un portable pas violent (presque 2 ans).
- J'ai un scanner pas tout neuf (EPSON Stylus Photo RX420)

--> Cette combinaison de base ne limite en rien le couple XSane et Tesseract qui est proche de la perfection.

Encore une fois merci au monde du libre pour les prog et les pas-à-pas.

P.S. : Ce soir, je me lance dans gscan2pdf et l'OCR ou ROC d'écriture manuelle pour jouer.

Sorbus · Le 07/03/2010, à 09:16

Nouvelle version de Tesseract-Gui ici

@Nabla : merci pour le retour.
Je crois qu'il existe des logiciels de ROC/OCR pour Mac, mais probablement pas très bon marché

Bushman02 · Le 10/03/2010, à 19:51

Nouvelle version de Tesseract-Gui essayée et adoptée : pas de bug sous Karmic, exécution plus rapide que dans la version précédente. Ça marche !
Entre autres aplications : en l'absence de scanner, elle peut s'avérer très utile pour reconnaître un texte photographié sans trop de précautions avec un APN.
Bravo et merci au concepteur.

compte supprimé · Le 16/06/2010, à 21:02

Up de ce topic, qui devrait être épinglé!

rmy · Le 16/06/2010, à 22:32

plop.

nesthib · Le 16/06/2010, à 23:32

monsieurweller a écrit :

Up de ce topic, qui devrait être épinglé!

ok j'épingle, dans ce cas peux-tu faire un résumé des derniers avancements du topic avec liens vers les parties importantes ? signale ensuite ton message ou contacte-moi et je mettrai un lien dans le 1er post du fil. (sans cela l'épinglage ne serait pas très utile)

Il serait bien aussi de compléter la doc avec ces informations.
merci

roger64 · Le 24/07/2010, à 08:50

Bonjour

Avez-vous regardé ce site qui vient d'ouvrir, avec des liens vers cuneiform (en russe ) et exactimage ?
http://watchocr.com/

Quelqu'un l'a t-il essayé?

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#401 Le 12/02/2010, à 10:08

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#402 Le 12/02/2010, à 11:46

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#403 Le 12/02/2010, à 15:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#404 Le 15/02/2010, à 12:21

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#405 Le 15/02/2010, à 13:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#406 Le 15/02/2010, à 15:05

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#407 Le 15/02/2010, à 15:18

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#408 Le 15/02/2010, à 16:08

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#409 Le 15/02/2010, à 17:18

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#410 Le 15/02/2010, à 17:28

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#411 Le 15/02/2010, à 19:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#412 Le 16/02/2010, à 10:29

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#413 Le 16/02/2010, à 20:35

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#414 Le 16/02/2010, à 22:48

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#415 Le 19/02/2010, à 10:32

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#416 Le 20/02/2010, à 15:13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#417 Le 22/02/2010, à 12:51

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#418 Le 23/02/2010, à 15:14

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#419 Le 28/02/2010, à 15:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#420 Le 07/03/2010, à 09:16

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#421 Le 10/03/2010, à 19:51

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#422 Le 16/06/2010, à 21:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#423 Le 16/06/2010, à 22:32

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#424 Le 16/06/2010, à 23:32

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#425 Le 24/07/2010, à 08:50

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums