Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus · Le 26/05/2008, à 20:19

Merci pour les précisions...
C'est donc tesseract 2.03 (version très récente, dans les dépôts Hardy, c'est la 2.01), installé via les dépôts Debian.

Pour le deb de xsane2tess, ça doit être ça. Il a été empaqueté pour Guadalinex, associé à un deb de tesseract fait pour Guadalinex. Il suffit en effet que celui-ci ait été nommé "tesseract" au lieu de "tesseract-ocr"... J'essayerai de nouveau sous Ubuntu pour vérifier ça.

Bon vent avec tesseract ;-)

hector · Le 01/06/2008, à 22:48

Bonsoir,
Ocropus 0.2 est sorti depuis 2 jours : ils apportent notamment un patch pour tesseract 2.03 qui semble bugué (cf le fichier readme).

Sorbus · Le 02/06/2008, à 08:03

Bonjour Hector,

Merci pour l'info. Je pense que nous avions déjà repéré le patch avec "b52" sur la liste de diffusion de tesseract. Nous l'avons utilisé pour réussir une installation correcte de tesseract 2.03. "b52" a réalisé un deb pour i386 et un autre pour amd64. Ils sont disponibles depuis la page tesseract de la documentation francophone.

J'ai testé tesseract 2.03 installé avec les paquets de "b52". Je n'ai pas repéré ce qu'apporte la version 2.03 par rapport à la 2.01. Par contre, les paquets de "b52" apportent un vrai plus par rapport aux paquets Hardy. C'est du bon tesseract.

Je n'avais pas repéré la sortie d'Ocropus 0.2. Tu as testé ?

[Edit : je rectifie : nous n'avions pas repéré le bug de tesseract indiqué dans le fichiers "INSTALL" - pas "README" ;-) - d'Ocropus. Nous avions seulement repéré l'autre bug (signalé dans le même fichier % à java, et c'est celui-ci que nous avions contourné pour l'installation). On va voir s'il est possible d'intégrer la correction de ce bug dans de nouveaux deb... Mais en attendant, je n'ai pas constaté d'anomalie avec tesseract installé via les deb de "b52")]

Dernière modification par Sorbus (Le 02/06/2008, à 09:01)

hector · Le 02/06/2008, à 10:05

Pas encore. je bloque à l'installation, au niveau du patch pour tesseract justement... (en suivant les intructions du fichier install (désolé pour la confusion )) il me dit qu'il ne trouve pas le fichier qu'il cherche....
je ne sais pas si l'installation du deb de b52 convient à ocropus...

Dernière modification par hector (Le 02/06/2008, à 10:14)

Sorbus · Le 02/06/2008, à 12:31

Je ne sais pas si l'installation du deb de b52 convient à ocropus...

Moi non plus. Mais a priori, ça devrait. La source est la même. On essaye de compiler ocropus aussi...

En attendant, b52 vient de réaliser de nouveaux paquets tesseract 2.03 intégrant le patch de correction du bug. Les liens de la page de la documentation pointent maintenant vers ces nouveaux paquets nommés :
tesseract_2.03-3_i386.deb
et
tesseract_2.03-3_amd64.deb

Pour ocropus, ça reste difficile. C'est encore une version alpha, en plein développement. La version beta est maintenant annoncée pour août prochain.

hector · Le 09/06/2008, à 11:42

Avez-vous finalement réussi à compiler ocropus? (moi pas...)

Sorbus · Le 09/06/2008, à 16:49

Nous non plus !

Maintenant, on va attendre la beta !

pmdzlineur · Le 12/06/2008, à 13:42

ah! Je crois qu'il y a un problème avec tesseract-ocr, depuis dernière mise à jour.
Je n'ai plus de fichier de sortie
Alors j'ai essayé en ligne de commande et voici la réponse

tesseract -i /home/$USER/acourriers/x0661.tif -o /home/$USER/acourriers/x0661.txt -l fra
read_variables_file:Can't open /usr/share/tesseract-ocr/tessdata/configs//home/$USER/acourriers/x0661.txtread_variables_file:Can't open /usr/share/tesseract-ocr/tessdata/configs/lread_variables_file:Can't open /usr/share/tesseract-ocr/tessdata/configs/fraUnable to load unicharset file /usr/share/tesseract-ocr/tessdata/eng.unicharset

et

ls /usr/share/tesseract-ocr/tessdata
configs         deu.inttemp     deu.user-words  fra.inttemp     fra.user-words
confsets        deu.normproto   deu.word-dawg   fra.normproto   fra.word-dawg
deu.DangAmbigs  deu.pffmtable   fra.DangAmbigs  fra.pffmtable   tessconfigs
deu.freq-dawg   deu.unicharset  fra.freq-dawg   fra.unicharset

Lequel est le bon ?
Problème spécifique debian ?

Dernière modification par pmdzlineur (Le 12/06/2008, à 13:44)

hector · Le 12/06/2008, à 14:07

je crois qu'il ne faut pas mettre de -o, non?

pmdzlineur · Le 12/06/2008, à 20:45

non c'est pareil
je pense qu'il y a eu une modif dans le logiciel

pmdzlineur · Le 13/06/2008, à 17:34

oui il ne faut pas d'argument options dans la commande de tesseract.
Je me demande donc si ça ne vient pas de xsane2tess.
Comme si il ne trouvait pas l'option $OPTARG

Sorbus · Le 14/06/2008, à 05:14

C'est quoi, tesseract -i, tesseract -o ???
Peux-tu nous indiquer les sources donnant des informations sur ces options associées à l'usage de tesseract ?

Il n'y a pas mention de ces options ici (et ces options n'ont jamais été mentionnées à cette page, même pour les versions précédentes de tesseract).

Je ne vois pas non plus mention de ces options sur le site officiel de tesseract.

Si tu lances tesseract en ligne de commande, et que tu obtiens ce résultat, xsane2tess n'y est pour rien, car avec tesseract lancé en ligne de commande, le script xsane2tess n'intervient pas (ce script n'intervient que si on veut effectuer directement la ROC avec tesseract lors d'un scan avec XSane).

Les seules options de tesseract sont à ma connaissance :
-l lang
(en remplaçant "lang", par la langue désirée pour la ROC : fra, eng, spa, deu...)
et cette autre option (uniquement si tesseract a été installé avec les paquets de b52) :
-lwt lang

Si les fichiers de langues sont correctement installés, ça fonctionne bien.

On voit avec ton
ls /usr/share/tesseract-ocr/tessdata
que tu as installé les deux langues allemand et français.

Donc, normalement, si tu lances :

tesseract /home/$USER/acourriers/x0661.tif /home/$USER/acourriers/resultatROC -l fra

ça doit marcher non ?
(le fichier de sortie : il suffit d'indiquer son emplacement et un nom de fichier sans extension).

Oui, dis-nous en davantage sur l'origine de ces options "-i" et "-o" pour tesseract... Dis-nous aussi quelle version de tesseract tu as installée ? Celle de Hardy, celle d'un dépôt debian, ou bien celle qui me semble la plus au point : celle du paquet fait par "b52" ?

Dernière modification par Sorbus (Le 14/06/2008, à 05:21)

pmdzlineur · Le 14/06/2008, à 09:54

oui j'ai dit sur le post au dessus que j' avais réessayé tesseract en lignes de commande sans les options après avoir relu le man et que ça marchait.
Donc le problème vient sans doute de xsane2tess.
Ma question était d'où vient la variable $OPTARG dans

#!/bin/bash
#
#
##############################################################################
#
#                                   xsane2tess 1.0
#
#                          *** tesseract made simple ***
#
#
##############################################################################
# 
# xsane2tess is a TesseractOCR wrapper to be able to use tesseract with xsane
#
#
#
TEMP_DIR=~/tmp/      # folder for temporary files (TIFF & tesseract data)
ERRORLOG="xsane2tess.log"  # file where STDERR goes 

if [[ -z "$1"  ]]
  then
  echo "Usage: $0 [OPTIONS]

  xsane2tess converts files to TIF, scans them with TesseractOCR
  and outputs the text in a file.

  OPTIONS:
    -i <file1>  define input file (any image-format supported)
    -o <file2>  define output-file (*.txt)
    -l <lang>  define language-data tesseract should use

  Progress- & error-messages will be stored in this logfile:
     $TEMP_DIR$ERRORLOG

  xsane2tess depends on
    - ImageMagick  http://www.imagemagick.org/
    - TesseractOCR http://code.google.com/p/tesseract-ocr/

  Some coding was stolen from 'ocube'
  http://www.geocities.com/thierryguy/ocube.html
"
  exit
fi


# get options...
while getopts ":i:o:l:" OPTION
  do
  case $OPTION in 
    i)  # input filename (with path)
      FILE_PATH="$OPTARG"
    ;;
    o )  # output filename
      FILE_OUT="$OPTARG"
    ;;
    l )  # Language-selection
      TES_LANG="$OPTARG"
    ;;
  esac
done

# redirect STDOUT to FILE_OUT
exec 1>>$FILE_OUT

# redirect STDERR to ERRORLOG
exec 2>>$TEMP_DIR$ERRORLOG

# strip path from FILE_PATH, use filename only
IN_FILE=${FILE_PATH##*/}

TIF_FILE="$TEMP_DIR""${IN_FILE%.*}".tif
TXT_FILE="$TEMP_DIR""${IN_FILE%.*}"

# converting image into TIFF (ImageMagick)
convert "$FILE_PATH" -compress none  "$TIF_FILE" 1>&2

# start OCR (tesseract expands output with *.txt)
tesseract "$TIF_FILE" "$TXT_FILE" -l "$TES_LANG" 1>&2

# STDOUT scanned text => FILE_OUT
cat "$TXT_FILE".txt

# delete graphic file after use
rm "$TIF_FILE"

# delete tesseract output
rm "$TXT_FILE".txt

pmdzlineur · Le 14/06/2008, à 11:17

bon ça remarche.
Ce n'est ni tesseract ni xsane2tess.
$OPTARG est je pense la variable de l'option chemin de dossier de sortie de xsane.
j'ai effacé le chemin, changé de type puis remis en .tiff et ça remarche ...
hum, bizarre

Dernière modification par pmdzlineur (Le 14/06/2008, à 11:18)

Sorbus · Le 14/06/2008, à 11:59

Salut pmdzlineur,

J'ai pas essayé XSane+xsane2tess+tesseract depuis quelques temps.
Donc, j'essaye en direct.
--> je mets un feuille avec un texte en français dans mon scanneur,
--> j'ouvre xsane via le terminal... pour voir si besoin les choses de plus près.
--> dans XSane : Préférences --> Configuration --> OCR
Je mets :
commande OCR : xsane2tess -l fra

Ah, OK, je comprends...
-i
et
-o
c'est là...
option de fichier d'entrée : -i
option de fichier de sortie : -o
... J'avais pas fait attention à ça jusqu'à présent...
Bien, je continue.
Appliquer...valider.
--> Je lance "Acquisition de l'aperçu".
--> Je cadre le texte à scanner.
--> Je sélectionne dans la fenêtre XSane : Enregistrer; j'indique le chemin de mon bureau, avec comme nom de fichier de sortie : "essai". Type : TEXT. Gris. 300 ppi.
--> Je lances "Numériser".
(...)
--> Je vais voir le résultat sur le bureau : le fichier est là. Il contient le texte bien reconnu.
--> Je regardes les messages du terminal : RAS.

Je suis sous Ubuntu Hardy.
Version de XSane : xsane 0.995
Version de xsane2tess : xsane2tess-1.0 (le script tel qu'il est dans le doc Ubuntu, installé via ledeb de Guadalinex).
Version de tesseract : tesseract 2.03 installé via le deb pour i386 de b52, disponible via la doc Ubuntu.

Et toi ? Comment procèdes-tu ? Je ne comprends pas en ligne de commande avec des fichiers .tif (ou.tiff) l'usage de xsane2tess. Quels messages d'erreurs as-tu avant de faire :
"j'ai effacé le chemin, changé de type puis remis en .tiff" ?

Et pour bien comprendre; où as-tu effacé le chemin ? Et tu as remis quoi en ".tiff" ? (quel fichier à l'origine ?)

pmdzlineur · Le 14/06/2008, à 12:33

dans la page de gui de xsane j'ai sélection visionneuse
le fichier de redirection /home/$USER/courries/xxxx.tiff
au dessous type tiff
et 400 ppi
Bizarrement j'avais avant une redirection sur un autre dossier et j'ai changé le dossier pour permettre à mon output d'être directement dans le bon dossier.
Ai je fait une erreur de terminaison ? Je ne me souviens plus.
Par ailleurs j'avais du pour un scannage passer à 800 et ensuite la panne ...
Donc en cherchant j'ai pensé que la $OPTARG n'était pas correcte .
J'ai aussi des pannes intempestives de mon portable, je pense qu'il chauffe trop, il faut que je le démonte pour nettoyage.
Bref plusieurs causes possibles d'erreur.

Dernière modification par pmdzlineur (Le 14/06/2008, à 12:33)

Sorbus · Le 14/06/2008, à 14:36

"Bref plusieurs causes possibles d'erreur."

OK... On ne cherche donc pas plus pour l'instant. A suivre si besoin...

@+

Sorbus · Le 22/06/2008, à 17:00

@pmdzlineur

Au fait, je vois qu'un autre logiciel, plus spécialisé, semble utiliser tesseract ?
Celui-ci, que tu connais visiblement bien.
A quoi sert la reconnaissance de caractères dans ce contexte, et comment est-elle utilisée par ce logiciel ?

pmdzlineur · Le 22/06/2008, à 19:08

On scanne directement le document à partir du dossier du patient (ouvre xsane) , application de l'ocr et enregistrement dans documents.
Fait par Roland Sevin à partir des sources de tesseract.
Mais .... je m'aperçois qu'avec mon essai ça ne marche pas chez moi ...
Je vois ça ;-)
A+

pmdzlineur · Le 23/06/2008, à 14:07

Ah si , ça marche
on clique dont sur le bouton, ça lance xsane, on fait aperçu, on scanne,on découpe , on numérise et ça envoie dans la fenêtre active.
On peut paramétrer autrement la sortie mais je n'ai pas encore essayé

Sorbus · Le 23/06/2008, à 18:14

Merci pour l'info.

"Fait par Roland Sevin à partir des sources de tesseract."

Basé sur quelle version de tesseract ? 2.01 ou 2.03 ?
Et pour utiliser tesseract via XSane, il utilise xsane2tess ?

En fait, c'est la suite de ce que tu écrivais ici... mais avec cette fois-ci les outils "XSane+xsane2tess+tesseract" directement "intégrés" dans Medintux ?

Sur ce fil de discussion un peu généraliste sur la reconnaissance optique de caractères, c'était intéressant à noter.

Et des médecins passent par ici... ils trouveront le chemin d'un logiciel qui pourra leur rendre grand service.

Dernière modification par Sorbus (Le 23/06/2008, à 18:18)

Sorbus · Le 23/06/2008, à 21:18

Pour info, un message daté du 12 juin de Jeffrey Ratcliffe, développeur de gscan2pdf :

I'm working on getting a debian package for ocropus, and as soon as that is finished, I shall build support into gscan2pdf.

Les choses semblent se préciser peu à peu concernant Ocropus...
A suivre

pmdzlineur · Le 23/06/2008, à 21:27

Non en fait j'ai regardé, il y a deux .sh , un nommé medintux2tess.sh et l'autre xsane2tess.sh
Ca utilise le tesseract-ocr de ma debian.

Sorbus · Le 23/06/2008, à 22:56

"Non en fait j'ai regardé, il y a deux .sh , un nommé medintux2tess.sh et l'autre xsane2tess.sh"

OK. En fait, tu avais installé xsane2tess avant, et ça peut toujours te rendre service si tu fais de l'OCR directement via XSane (sans passer par Medintux). Et Roland Sevin a conçu le script medintux2tess qui permet d'utiliser tesseract directement dans Medintux.

Et pour tesseract, ça utilises la version installée sur l'ordi, que ce soit par un paquet deb des dépôts Debian, Ubuntu ou autre (sous Debian lenny, c'est tesseract-ocr_2.03 dans les dépôts)... ou que ce soit compilé depuis les sources. Pour du scan direct, toutes les versions (récentes) sont bonnes, donc pas de problème pour Medintux.

Espérons qu'ocropus ne sera pas plus difficile à adapter à XSane et à Medintux que tesseract...

Dernière modification par Sorbus (Le 01/07/2008, à 22:15)

Bushman02 · Le 29/06/2008, à 21:48

Message très terre-à-terre :je suis sous gutsy et xsane2tess ne fonctionne plus chez moi depuis quelques jours. Désinstallation, réinstallation : rien de mieux. Pendant ce temps, gscan2pdf + tesseract fonctionnent imperturbablement.
Quelqu'un a-t-il une explication ou un conseil ?
Merci d'avance !

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#201 Le 26/05/2008, à 20:19

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#202 Le 01/06/2008, à 22:48

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#203 Le 02/06/2008, à 08:03

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#204 Le 02/06/2008, à 10:05

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#205 Le 02/06/2008, à 12:31

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#206 Le 09/06/2008, à 11:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#207 Le 09/06/2008, à 16:49

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#208 Le 12/06/2008, à 13:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#209 Le 12/06/2008, à 14:07

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#210 Le 12/06/2008, à 20:45

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#211 Le 13/06/2008, à 17:34

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#212 Le 14/06/2008, à 05:14

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#213 Le 14/06/2008, à 09:54

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#214 Le 14/06/2008, à 11:17

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#215 Le 14/06/2008, à 11:59

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#216 Le 14/06/2008, à 12:33

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#217 Le 14/06/2008, à 14:36

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#218 Le 22/06/2008, à 17:00

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#219 Le 22/06/2008, à 19:08

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#220 Le 23/06/2008, à 14:07

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#221 Le 23/06/2008, à 18:14

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#222 Le 23/06/2008, à 21:18

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#223 Le 23/06/2008, à 21:27

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#224 Le 23/06/2008, à 22:56

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#225 Le 29/06/2008, à 21:48

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums