Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".

#176 Le 25/03/2008, à 07:59

kodiak

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Essayé hier: gscan2pdf + tesseract (installation selon les tutos : tesseract et gscan2pdf , sans oublier les dépendances djvulibre et unpaper). Test sur une page .tiff scanée avec xsane (bouquin à plat, 300 dpi, gris) = impeccable, fonctionne du premier coup, on se croirait sous Windows...
Silence, le troll!


Ubuntu depuis 04.10 ! === 12.04 sur PC AMD Athlon 64 3800+ (GeForce 8400GS / nForce 430) === 12.04 sur PC AMD Sempron LE-1200 (GeForce 7050 PV / nForce 630a) === Ubuntu Netbook Edition 10.10 sur HP Mini 210 === Lubuntu 12.04 sur Asus Eee PC 701/4G

Hors ligne

#177 Le 11/04/2008, à 17:19

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Silence, le troll!
wink
On a été très silencieux
smile

Un autre fil avec une petite expérience intéressante dont je place le lien ici pour mémoire.

Hors ligne

#178 Le 14/04/2008, à 08:01

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut,

Je signale deux .deb empaquetés par les amis de Guadalinex (distribution andalouse basée sur Ubuntu). Je ne les ai pas testés, mais à mon avis, on doit pouvoir les utiliser sous Ubuntu (ils sont dans le dépôt "repositorio" officiel de Guadalinex).
tesseract_2.01-1guadausers1_i386.deb    2008-Apr-03 20:11:54    2.4M    application/x-debian-package (ce deb inclut toutes les langues actuellement disponibles pour la ROC avec tesseract).
[Edit : testé... Tesseract fonctionne correctement sous Ubuntu Gutsy avec ce deb Guadalinex à condition d'installer aussi gscan2pdf 0.9.23 avec le deb guadalinex (à la même adresse) Pour Ubuntu (i386), il faut utiliser le deb de b52 (qui inclut seulement deux langues : anglais et français... mais les autres s'installent facilement en suivant les indications de la documentation) - et pour Ubuntu 64 bits, il faut compiler]

[Edit 26 avril 2008 : pour l'installation de tesseract, il y a du nouveau avec Hardy... et de nouveaux paquets deb "toutes langues" mis au point par b52. Ceux de Guadalinex sont d'ailleurs fonctionnels aussi. Voir la documentation tesseract à jour ici]



xsane2tess_1.0-1guadausers1_i386.deb    2008-Apr-13 23:14:06    2.6K    application/x-debian-package

Avec le deb de gscan2pdf 0.9.23, nous avons maintenant des deb pour les meilleurs outils actuels pour la ROC sous Linux.

J'essaye de tester le deb de tesseract sur un ordi où je ne l'ai pas encore installé... mais je n'ai pas de scanneur sur cet ordi. Si quelqu'un peut tester le deb de xsane2tess et donner des nouvelles...

Pour info sur Guadalinex, voir le site officiel de cette distribution et wikipedia.

Dernière modification par Sorbus (Le 26/04/2008, à 20:51)

Hors ligne

#179 Le 16/04/2008, à 00:26

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'ai testé, le deb xsane2tess de Guadalinex fonctionne très bien pour Ubuntu Gutsy. Ce qui apporte une petite simplification pour l'installation de ce script. Après avoir installé le deb, comme indiqué dans la doc, il faut juste penser à créer un répertoire /home/identité/tmp , et tout va alors très bien.

Dernière modification par Sorbus (Le 26/04/2008, à 20:49)

Hors ligne

#180 Le 16/04/2008, à 10:29

Quid

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je viens polluer ici car je vois qu'il y a des utilisateur de gscan2pdf, j'ai un petit probleme et le message dédié n'as eu aucun succès ....

gscan2pdf fonctionne très bien pour sauver en pdf mais quand je choisi le format djvu, après confirmation du nom de fichier, il ne se passe rien.
Il est en version 0.9.13 sous Gustsy.
Installation classique par les dépots standards. Djvulibre est installé aussi.

Une idée ?

Hors ligne

#181 Le 16/04/2008, à 14:09

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour Quid,

Je n'ai jamais utilisé la version 0.9.13 qui est dans les dépôts Gutsy. Je sais qu'un certain nombre de bogues ont été corrigés version après version par le développeur de gscan2pdf

Avant de chercher l'origine du problème ailleurs, je te conseillerais :

--> de désinstaller complètement gscan2pdf 0.9.13 (par Synaptic si tu l'as installé par Synaptic).
--> de réinstaller la dernière version de gscan2pdf (la 0.9.23), qui s'installe très facilement (elle est empaquetée en deb, parfaitement compatible avec Ubuntu Gutsy - je l'ai testée sur plusieurs ordinateurs i386 et amd 64). C'est très facile à installer puisque c'est un deb. Il suffit de suivre les indications de la documentation.

Normalement, en 10 minutes, tu auras désinstallé et réinstallé. Si le problème est résolu avec la nouvelle version de gscan2pdf, laisse un message pour nous le signaler. S'il n'est pas résolu, démarre gscan2pdf dans un terminal avec la commande :
gscan2pdf  --debug
et envoie dans un message les indications du terminal lorsque tu cherches à sauver au format djvu.

Dernière modification par Sorbus (Le 16/04/2008, à 20:30)

Hors ligne

#182 Le 16/04/2008, à 19:08

nickg

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

bonjour,
j'essaie d'utiliser tesseract avec xsane mais j'obtiens un fichier txt vide. J'ai suivi les conseil du post
http://doc.ubuntu-fr.org/xsane2tess mais ca marche pas
Dans xsane2tess.log j'ai :


sh: mpeg2encode: command not found
convert: Delegate failed `"mpeg2encode" "%i" "%o"'.
Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/nico/tmp/xsane-conversion-epkowa:libusb:002:004.tif
tesseract:Error:Read of file failed:/home/nico/tmp/xsane-conversion-epkowa:libusb:002:004.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/nico/tmp/xsane-conversion-epkowa:libusb:002:004.txt: Aucun fichier ou répertoire de ce type
rm: ne peut enlever `/home/nico/tmp/xsane-conversion-epkowa:libusb:002:004.tif': Aucun fichier ou répertoire de ce type
rm: ne peut enlever `/home/nico/tmp/xsane-conversion-epkowa:libusb:002:004.txt': Aucun fichier ou répertoire de ce type

qq a t il ce prob?
Merci
@+

Hors ligne

#183 Le 16/04/2008, à 19:37

Quid

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci Sorbus big_smile big_smile !!!
Ca fonctionne avec la  0.9.23 comme sur des roulettes.
Suuuuuuuuuuuuuuuuuuuuper !

Hors ligne

#184 Le 16/04/2008, à 22:32

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@nickg,
On se retrouve sur plusieurs forum. Je réfléchis à ta question. Pour essayer de cerner le problème :
--> Tu es sous Ubuntu ou bien sous Mandriva... ou une autre distribution ?
--> As-tu bien installé Imagemagick ?
--> Comment as-tu installé Tesseract ( par le deb de b52 ? en compilant ? par synaptic ?) Question annexe : quelle version de tesseract as-tu installée (1.04 ? 2.01 ?)
--> As-tu essayé d'utiliser tesseract en ligne de commande sur le fichier sur lequel tu veux réaliser la ROC ?
--> Comment as-tu installé xsane2tess (cf. le lien envoyé dans ton post) : par le deb de Guadalinex ? Ou bien en installant le script toi-même "à la main" ?

@+

Dernière modification par Sorbus (Le 16/04/2008, à 22:35)

Hors ligne

#185 Le 17/04/2008, à 09:17

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'ai eu, pendant quelques jours, le même problème que nickg. Ledit problème a disparu après réinstallation de xsane2tess au moyen du paquet deb. J'avais dû faire une erreur en installant le script à la main.
Je profite de l'occasion, en tant qu'utilisateur lambda, pour remercier tous les contributeurs de ce fil de discussion : grâce à eux, chacun dispose maintenant d'un outil de ROC efficace.
Question : cet outil est-il valable pour toutes les distributions Linux ?

Dernière modification par Bushman02 (Le 17/04/2008, à 16:54)

Hors ligne

#186 Le 17/04/2008, à 10:49

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Question : cet outil est-il valable pour toutes les distributions Linux ?

A priori, je pense que oui... Je n'ai pas testé, mais sur le principe, il n'y a pas de raison que ces outils, c'est à dire :
--> gscan2pdf + tesseract
et
--> xsane + xsane2tess + tesseract
ne fonctionnent pas sur toutes les distributions Linux.

Il peut exister quelques difficultés d'installation, selon par exemple les versions de ces outils disponibles dans les dépôts, selon la qualité de la documentation propre à chaque distribution, selon l'existence et l'accès plus ou moins facile à des paquets deb ou rpm des versions les plus récentes de ces outils.

On voit sur le forum Mandriva que certains utilisent sans problème "xsane + xsane2tess + tesseract" sous Mandriva.

Dans les réactions à l'article de "Linux on the root" sur "gscan2pdf +tesseract", on voit que ces outils sont utilisés avec succès sous Debian Lenny, Debian Etch, Ubuntu Gutsy (7.10), Archlinux, Fedora Core 8, Mandriva 2008...

Beaucoup de choses sont communes à toutes les distributions Linux... et pour améliorer les outils, une bonne collaboration est efficace. On le voit pour la ROC. Le script xsane2tess a été mis au point par un contributeur de Mandriva Allemagne, le paquet deb d'xsane2tess par un contributeur de Guadalinex (Espagne), le paquet deb de tesseract par b52 (Linux on the root, Debian & Ubuntu)...

A suivre... car les outils de ROC s'amélioreront encore.

Dernière modification par Sorbus (Le 17/04/2008, à 21:26)

Hors ligne

#187 Le 17/04/2008, à 20:11

nickg

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

je suis sous mandriva 2008.1 64
Imagemagick  , Tesseract 2.01 ,tesseract-fra 2.01 sont installés via mon installateur de rpm
Pour xsane2tess , j'ai crée un simple document avec un éditeur et  fait un copier/coller du script Puis je l'ai dans /usr/bin  comme executable
en konsole j'ai
[nico@localhost ~]$ tesseract ~/toto.tiff toto -1 fra
read_variables_file:Can't open /usr/share/tessdata/configs/fraCould not open file, -1
[nico@localhost ~]$

et j'utilse xsane pour scanner certaines parties d'un document
@+

Dernière modification par nickg (Le 17/04/2008, à 20:16)

Hors ligne

#188 Le 17/04/2008, à 21:18

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

[nico@localhost ~]$ tesseract ~/toto.tiff toto -1 fra
read_variables_file:Can't open /usr/share/tessdata/configs/fraCould not open file, -1
[nico@localhost ~]$

Sur ce point, je peux te répondre. Ne pas confondre le chiffre 1 et la lettre l (L minuscule).
La bonne commande est :

tesseract ~/toto.tiff toto -l fra

Vérifie ce que tu as mis dans la configuration OCR de Xsane.
Il faut mettre :

xsane2tess -l fra

et non pas

xsane2tess -1 fra

Hors ligne

#189 Le 17/04/2008, à 22:25

nickg

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

merci j'ai apporté les corections
mais  j'ai
[nico@localhost ~]$ tesseract ~/toto.tiff toto -l fra
Tesseract Open Source OCR Engine
name_to_image_type:Error:Unrecognized image type:/home/nico/toto.tiff
IMAGE::read_header:Error:Can't read this image type:/home/nico/toto.tiff
tesseract:Error:Read of file failed:/home/nico/toto.tiff
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
[nico@localhost ~]$

Hors ligne

#190 Le 17/04/2008, à 23:35

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Maintenant, ça se rapproche beaucoup d'un problème déjà évoqué dans ce fil de discussion, à la page précédente :
- ici
- avec solution , que je remets en clair :

Xsane enregistre les images en tiff avec une certaine compression. Or, Tesseract ne reconnait que les tiff sans compression. Il suffit donc d'ouvrir l'image avec Gimp, l'enregistrer sous avec le même nom et de choisir dans les options qui apparaitront "Compression : aucune".

Si tu fais la ROC en ligne de commande sur une image en tiff obtenue avec xsane, c'est le problème que tu rencontres. Il faut donc faire la petite manip avec Gimp avant de lancer la ROC.

Mais en fait, si tu utilises Xsane en sortie TXT, avec directement la reconnaissance optique de caractères, il ne devrait pas y avoir de problème...

Toujours à la page précédente, une autre piste était proposée ici.

Dernière modification par Sorbus (Le 17/04/2008, à 23:36)

Hors ligne

#191 Le 18/04/2008, à 12:29

nickg

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

j'ai bien lu le fil et pour l'image tiff j'ai bien fait la manip avec gimp , puis en ligne de commande j'ai tj le même message ..."Unrecognized image type..."
j'ai aussi fait une sortie en txt avec xsane :  Mon fichier apparait dans la visonneuse de xsane , puis je clic sur l'icone "abcdef"  je l'enregistre en txt mais j'ai tj 0 octet dans le fichier
ya qqc qui m'échappe.....

Hors ligne

#192 Le 18/04/2008, à 13:53

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Essaye de lancer la commande xsane dans un terminal (de lancer xsane depuis le terminal)... et de faire la même tentative. Note que tu peux directement diriger le résultat de la ROC dans un fichier texte sans passer par la visionneuse (choisir "Enregistrer" au lieu de "Visionneuse")...

La manip pour réaliser la ROC est ensuite plus rapide, mais dans l'immédiat, ça ne résoudra pas ton problème.

A moi aussi... quelque chose m'échappe. Je vois ces pistes :
- essayer avec un autre fichier .tiff, d'une autre origine, pour voir si c'est pareil,
- relancer ta question sur le forum Mandriva, pour que ceux qui se servent de l'outil te disent comment ils ont fait (s'il y a des trucs d'installation propres à cette distribution).
- les paquets libtiff sont-ils bien installés chez toi. Pour info (mais je suis sous Ubuntu Gutsy), voici les paquets "tiff" qui sont installés chez moi : libtiff4, libtiff4-dev, libtiff-tools, libtiffxx0c2.

Dernière modification par Sorbus (Le 18/04/2008, à 13:54)

Hors ligne

#193 Le 18/04/2008, à 15:06

nickg

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

apparemment c'est l'exention  (tiff) avec 2 "f" qui pose problème
xsane m'enregistre mon  image en .tiff si je mets un seul "f", j'ai pas de  msg d'erreur comme avant. Aprés l'avoir ré enregistré sous gimp, ca marche parfaitement en ligne de commande.
C'est un peu rébarbatif d'enregistrer chaque image ,auparavant sous gimp si j'ai une dizaine de pages.....(!)
donc en konsole c'est ok,

Avec xsane ca marche pas. Lorsque tu dit "(choisir "Enregistrer" au lieu de "Visionneuse")..." Ca m'enregistre bien un fichier texte .......vide . A partir de cette manip, c'est un simple enregistrement de fichier txt, A quel moment l'ocr intervient?

en konsole avec xsane j'ai des mesg d'erreur du genre:
(xsane:7217): Gtk-CRITICAL **: gtk_widget_set_sensitive: assertion `GTK_IS_WIDGET (widget)' failed
mais ca l'empéche pas de marcher
C'est peu être la le probléme??

Dernière modification par nickg (Le 18/04/2008, à 15:31)

Hors ligne

#194 Le 18/04/2008, à 16:31

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Avec xsane ca marche pas. Lorsque tu dit "(choisir "Enregistrer" au lieu de "Visionneuse")..." Ca m'enregistre bien un fichier texte .......vide . A partir de cette manip, c'est un simple enregistrement de fichier txt, A quel moment l'ocr intervient?

tesseract intervient entre le moment où tu cliques sur "numériser" et l'enregistrement du fichier txt. Normalement, puisque le moteur de ROC travaille, il faut un peu de temps (5... à 30 secondes ou plus), selon la longueur du texte à reconnaitre). Un détail : le fichier .txt sort très vite, toujours, vide (au départ), mais on voit dans xsane, si l'installation est correcte et fonctionnelle, que ça travaille (la fenêtre principale d'xsane est "figée"; si celle-ci redevient accessible très vite, c'est mauvais signe : la ROC n'a pas fonctionné. Mais j'avais écrit : "dans l'immédiat, ça ne résoudra pas ton problème". C'est simplement une méthode permettant d'arriver plus vite au but quand la combinaison xsane+xsane2tess+tesseract est fonctionnelle. Pour l'instant, chez toi, elle ne l'est pas encore semble-t-il.

en konsole avec xsane j'ai des mesg d'erreur du genre:
(xsane:7217): Gtk-CRITICAL **: gtk_widget_set_sensitive: assertion `GTK_IS_WIDGET (widget)' failed
mais ca l'empéche pas de marcher
C'est peu être la le probléme??

Peut-être bien. Le problème viendrait de ton installation de xsane, et non de tesseract, ni de xsane2tess. Je viens de faire cet essai avec xsane lancé dans le terminal
- numérisation d'un texte enregistré au format tiff.
Je n'ai aucun message d'erreur dans le terminal.
Puis directement en ligne de commande sur ce fichier .tiff (avec deux "f"), sans manip préalable avec gimp :
- tesseract  fichier.tiff resultat -l spa
(oui, c'était un texte en espagnol, donc pas -l fra ;-)

Texte en police 10, de 3/4 d'un A4 environ... tesseract a tourné un peu plus de 15 secondes. Aucun message d'erreur... et le résultat est très correct.

Donc... quand tu écris "mais ca l'empéche pas de marcher"... c'est sans doute vrai, mais xsane marche chez toi avec quelques dysfonctionnements :
- l'enregistrement au format .tiff n'est pas tout à fait correct,
- la ROC directe via xsane2tess au format txt ne se fait pas.

... ça ne vient pas de ton installation de tesseract, puisque tesseract fonctionne bien en ligne de commande
(avec une petite réserve : est-ce que les bons paquets libtiff sont installés sur ton ordinateur... il se peut que tesseract fonctionne bien chez moi sur les fichiers.tiff produits par xsane parce qu'il dispose de tous les libiff nécessaires.)

Pour essayer de contourner le problème, as-tu testé gscan2pdf ?

Dernière modification par Sorbus (Le 18/04/2008, à 16:33)

Hors ligne

#195 Le 18/04/2008, à 17:37

nickg

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

pour les libtiff j'ai :
libtiff-progs 3.8.2
libtiff3   3.8.2
lib64tiff3-devel

j'ai utilisé gscan2pdf  ca marche très bien quant au résultat  il est pas mais les accents sont tj là Ca vient du fait que la langue a reconnaître , dans les options est "anglais uniquement

Tu disais :
"si la fenêtre redevient accessible très vite, c'est mauvais signe : la ROC n'a pas fonctionné. "
En 2 secondes elle est accessible chez moi
conculsion :y a quelques dysfonctionnements  avec mon xsane
je vais essayé de voir  le mesg d'erreur avec google que xsane me donne Si j'ai trouvé je t'en ferai pas
merci pour ton aide++

Hors ligne

#196 Le 18/04/2008, à 18:04

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

j'ai utilisé gscan2pdf  ca marche très bien (...) dans les options est "anglais" uniquement.

As-tu installé les fichiers de langues, notamment tesseract-2.00.fra.tar.gz pour le français ?

Quand tu lances tesseract en ligne de commande avec l'option -l fra, ça marche ?

Si oui... et si tu n'as pas l'option français pour la ROC avec tesseract dans gscan2pdf, c'est une question d'emplacement du répertoire tessdata. Quelle version de gscan2pdf as-tu installée (le problème est résolu depuis gscan2pdf 0.9.20). Si tu as une version antérieure, il est possible de résoudre le problème en créant un lien symbolique.

[Edit : le problème de l'emplacement du dossier tessdata n'est pas totalement corrigé dans les nouvelles versions de gscan2pdf (0.9.20 à 0.9.23). Il est contourné pour debian et ubuntu par le paquet deb de tesseract 2.01 mis au point par b52. Sous Mandriva, il faut créer un lien symbolique pour que gscan2pdf trouve le dossier tessdata au bon endroit.)

Regarde où est placé le répertoire tessdata :
- /usr/share/tessdata ?
- /usr/local/share/tessdata ?
- /usr/share/tesseract-ocr/tessdata ?

xsane : de quelle version disposes-tu ?
Si le problème provient des libtiff... ou s'il en manque, j'espère qu'ils te répondront sur le forum Mandriva, pour te dire ce qu'ils ont installé et comment.

Dernière modification par Sorbus (Le 24/04/2008, à 08:33)

Hors ligne

#197 Le 24/04/2008, à 08:16

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@nickg,

Tu es sous Mandriva 2008.1 64. Je pense avoir trouvé la solution a ton problème xsane2tess sur le forum Mandriva Allemagne.

Ici, le même problème que celui que tu nous as exposé dans ton premier message.

Et la solution : remplace le script xsane2tess dont tu disposes (xsane2tess-1.0) par celui qui est indiqué ici (xsane2tess-1.1) (attention, ne copie pas le mot "Code:" en haut, ton fichier bash doit commencer par la ligne "#!/bin/bash").

Si j'ai bien compris, ça ne fonctionnait plus sous Mandriva 2008.1 à cause de modifications de Imagemagick (et pour Ubuntu, il faudra tester ce que ça donne avec Hardy).

Donnes-nous des nouvelles. Et si ça marche, je te laisse le soin de communiquer l'info sur le forum Mandriva France wink

Dernière modification par Sorbus (Le 24/04/2008, à 08:18)

Hors ligne

#198 Le 25/05/2008, à 15:11

pmdzlineur

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

super génial !
Avec tesseract sous debian , le paquet tesseract langue francaise et xsane2tess (le script, car le .deb ne marche pas, pb d'écriture de dépendance), je scanne et fait l'ocr chez moi, dirigé vers un dossier samba et et je peux le mettre plus tard sur mon logiciel médical libre Medintux à mon cabinet.
Résultat impeccable, gain de temps +++.
Avec xsane, sélectionner la partie à scanner à partir de l'aperçu de l'onglet fenêtre => on garde l'essentiel, c'est plus propre.
cool


je ne suis pas informaticien, juste utilisateur un peu averti ;-)
http://www.freemedforms.com/fr/start
http://code.google.com/p/rapidcomptamed/
médecin volant, mais pas en même temps ;-)

Hors ligne

#199 Le 25/05/2008, à 16:34

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@pmdzlineur,
Merci pour le retour.
J'ai quelques questions pour bien tout piger :
- tu es sous quelle version Debian ?
- comment as-tu installé tesseract sous Debian (avec le deb de b52 ? en compilant ?)
- as-tu repéré quels étaient les pb de dépendance du deb de xsane2tess ? (pas très grave dans la mesure où il est facile de mettre en place le script "à la main"... mais si on peut améliorer...)

Au passage, en référence au message #197, je signale que la version xsane2tess-1.0 fonctionne toujours bien sous Ubuntu Hardy... Je pense qu'il en est de même sous Debian. La version xsane2tess-1.1 est nécessaire par contre pour Mandriva 2008, du fait des versions différentes de certaines dépendances dont imagemagick.

Autre info : en principe, b52 devrait bientôt mettre à notre disposition un deb amélioré (mais je pense sans intérêt pour ton usage... il s'agit simplement de permettre un bon fonctionnement de tesseract sur des fichiers images de divers format déjà numérisés).

@+

Dernière modification par Sorbus (Le 25/05/2008, à 16:35)

Hors ligne

#200 Le 26/05/2008, à 13:36

pmdzlineur

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

- ma version debian : 2.6.24-1-686 , testing lenny
- j'ai installé par apt

ii  tesseract-ocr  2.03-1         Command line OCR tool
ii  tesseract-ocr- 2.00-1         tesseract-ocr language files for German text
ii  tesseract-ocr- 2.03-1         Development files for the tesseract command 
ii  tesseract-ocr- 2.00-1         tesseract-ocr language files for French text

- je ne me suis pas attardé sur le problème de dépendance mais ce qu'a dit dpkg c'est  que c'était l'absence de tesseract qui était le problème de dépendance. Or tesseract-ocr était installé, j'en ai conclu que c'était un problème de dénomination de tesseract dans le .deb qui posait problème. Après, je ne sais pas.
A+


je ne suis pas informaticien, juste utilisateur un peu averti ;-)
http://www.freemedforms.com/fr/start
http://code.google.com/p/rapidcomptamed/
médecin volant, mais pas en même temps ;-)

Hors ligne

Haut de page ↑