Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites". Attention, le forum rencontre actuellement quelques difficultés. En cas d'erreur 502, il ne faut pas re-valider l'envoi d'un message ou l'ouverture d'une discussion, au risque de créer un doublon.

La section divers se réorganise ! De nouvelles sous-sections à venir. (plus d'infos + donner son avis)

#276 Le 07/12/2008, à 14:39

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@fra_tor_33
A défaut de pouvoir moi-même tester sous Intrepid, je te propose une autre piste pour tenter de cerner le problème.
Peux-tu essayer de réaliser de la ROC avec gscan2pdf + tesseract ?
Il est en effet possible de scanner avec gscan2pdf, puis de réaliser la ROC (toujours avec l'interface graphique de gscan2pdf, qui peut utiliser tesseract).

Si ça marche avec "gscan2pdf+tessseract", cela permettrait de confirmer que le problème ne vient pas de tesseract, mais de xsane2tess.

Dernière modification par Sorbus (Le 07/12/2008, à 14:39)

Hors ligne

#277 Le 07/12/2008, à 14:47

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

bonjour,
De mon côté je viens d'essayer "gscan2pdf+tessseract" sous intrepid ibex (64 bits) et ça a marché nickel.
J'ai même utilisé le tesseract des dépôts (v.2.03) et non celui de b52 et j'ai eu de très bons résultats (peut-être le bug qu'il y avait a été corrigé ?)

Hors ligne

#278 Le 08/12/2008, à 21:02

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut,
J'ai anticipé le passage à Intrepid pour mon fixe (je n'avais pas prévu de le faire dès maintenant) afin de pouvoir identifier le problème.

Résultat : 2-1 ! C'est à dire que je viens de tester une ROC via xsane+xsane2tess+tesseract, et que le résultat est très bon.

C'est important : ça signifie que le problème n'est pas général. Il nous reste à comprendre ce qui arrive à ceux chez qui ça ne marche pas...

A suivre...

Hors ligne

#279 Le 08/12/2008, à 21:47

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

j'utilisais tesseract + xsane2tess sous hardy et je n'avais aucun problème.
Depuis que j'ai fait une réinstallation complète sous intrepid, ça ne fonctionne plus.
J'ai xsane 0.995
tesseract 2.03.3
xsane2tess 1.0-1 de guadalinex

Lors de mon premier essai sous Intrepid, j'avais tesseract-ocr des dépôts Intrepid et xsane2tess 1 installé à la main.

Je viens de faire un nouvel essai avec tesseract 2.03.3 de b52 et xsane2tess 1.0-1 de guadalinex. Et bien... ça marche aussi.

Je continue à chercher à reproduire l'erreur. En vain hmm

En résumé fra_tor_33; avant qu'on ne cherche plus loin... et pour tenter de disposer de quelques éléments supplémentaires :
- est-ce que tesseract fonctionne chez toi en ligne de commande ou en utilisant gscan2pdf ?
- est-ce qu'Imagemagick est bien installé chez toi ?

Aurais-tu d'autres indices ? Des éléments nouveaux ?

L'erreur, chez toi, est celle-ci :

IMAGE::read_header:Error:Can't open file:/home/frator/tmp/.tif

Je n'avais pas fait attention, le fichier .tif qui ne peut pas être lu n'a pas de nom... Seulement l'extension ".tif" dans le sous-répertoire "tmp". D'où cela peut-il bien venir ?

Dernière modification par Sorbus (Le 08/12/2008, à 22:18)

Hors ligne

#280 Le 10/12/2008, à 11:07

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Hier sous Mint et aujourd'hui sous Ibex, toutes précautions prises, le même message d'erreur :

convert: missing an image filename `/home/xxx/tmp/.tif'.
Tesseract Open Source OCR Engine
TIFFOpen: /home/xxx/tmp/.tif: Cannot open.
tesseract:Error:Read of file failed:/home/xxx/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/xxx/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/xxx/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/xxx/tmp/.txt': Aucun fichier ou dossier de ce type

Dans les deux cas, parallèlement, gscan2pdf fonctionne.
Note accessoire car elle doit sans doute venir de mon incompétence technique : sous Mint, une tentative de remplacement du tesseract d'origine par le 2.03.3 a abouti à... un plantage de synaptic (Message d'erreur, de mémoire : "Le paquet tesseract doit être remplacé mais je ne le trouve pas".)

Remarque : il est assez ennuyeux que les acquis des mois précédents se trouvent remis en cause, pour certains d'entre nous, à chaque nouvelle mouture de la distribution. Je sais bien qu'elle est gratuite, que le forum n'est pas un SAV, que les résultats diffèrent d'une machine à l'autre... mais l'énergie dépensée sur ce fil depuis bientôt un an par ceux qui font avancer les choses mérite mieux, me semble-t-il. (Je ne parle évidemment pas pour moi...)

Hors ligne

#281 Le 29/01/2009, à 20:30

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut,
Juste un petit "up", pour savoir s'il y a du nouveau du côté de Bushman02 ou de fra_tor_33.
Vous êtes deux à avoir rencontré ce même problème, avec ces étonnants fichiers "sans nom" :/home/xxx/tmp/.tif...

Dans mon dernier message ici, j'avais laissé ces deux questions :

- est-ce que tesseract fonctionne chez toi en ligne de commande ou en utilisant gscan2pdf ?
- est-ce qu'Imagemagick est bien installé chez toi ?

Bushman02 a partiellement répondu ("parallèlement, gscan2pdf fonctionne.")... Cela signifie-t-il que tu peux réalise de l'OCR avec tesseract en utilisant gscan2pdf ? ça marche aussi en utilisant tesseract en ligne de commande ?

Si oui, il faut que l'on affine la question en étudiant comment ça se passe du côté de Xsane. La solution existe sûrement...

Hors ligne

#282 Le 29/01/2009, à 22:22

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci, Sorbus, de reprendre le fil de la discussion, même si je suis, depuis la mi-décembre, revenu à Gutsy Gibbon. C'est la version d'Ubuntu qui me pose le moins de problèmes. J'y reste donc fidèle jusqu'à nouvel ordre.
Néanmoins, pour répondre à tes questions, si cela peut servir :
- je n'ai pas testé tesseract en ligne de commande, mais seulement avec gscan2pdf.
- imagemagick était, je crois, bien installé chez moi... mais je ne l'assurerais pas.
... En fait Gutsy suffit amplement à mes besoins, et s'il m'arrive de tester une nouveauté, c'est par pure curiosité.
Désolé de ne pouvoir apporter pour l'instant une contribution plus intéressante à ce fil..

Dernière modification par Bushman02 (Le 29/01/2009, à 22:24)

Hors ligne

#283 Le 30/01/2009, à 11:28

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci Bushman02,

Ton dernier message précise et confirme le précédent : tu as bien pu réaliser normalement de la ROC sous Intrepid en utilisant gscan2pdf+tesseract. Le problème que vous avez rencontré avec fra_tor_33 provient donc de xsane+xsane2tess...

Il restera à savoir si c'est un problème de configuration (configuration par défaut ayant changé entre deux versions ?)... ou d'autre chose. Lorsqu'un problème n'est pas général, mais concerne seulement une partie des utilisateurs, il est souvent difficile à cerner.

On ne sera en mesure de chercher davantage que si un autre utilisateur rencontre le même problème sous Intrepid et cherche à le résoudre...

Pour le reste, si la ROC a fait un bon en avant sous Linux avec l'arrivée de Tesseract et des solutions connexes (gscan2pdf, xsane+xsane2tess), j'ai l'impression que ça n'a guère bougé depuis.

Kooka est passé à la trappe (plus de développement)... Le prometteur projet Ocropus avance... mais son installation reste complexe. Je ne sais pas si les développeurs de Xsane se sont décidé à faire le nécessaire pour intégrer l'utilisation directe de tesseract (ce qui éviterait de passer par un adaptateur comme xsane2tess, et résoudrait sans doute quelques problèmes)...

Si certains ont du nouveau sur ces différents points, n'hésitez pas ;-)

Le message de phira (19/10) est intéressant comme solution alternative. Une description un peu plus détaillée de cette solution m'intéresserait, pour compléter les tests à l'occasion (quelle version de wine, et de simpleOCR...)... Cette solution suppose une succession d'étapes... peut-on en automatiser certaines ? Ou faire un tuto les précisant bien pour faciliter l'emploi de cette solution pour des utilisateurs novices.

As-tu testé les autres solutions proposées sur ce fil (et synthétisées dans la documentation Ubuntu sur la ROC) ?

Et Zococo : as-tu testé ?

@+

Dernière modification par Sorbus (Le 30/01/2009, à 11:29)

Hors ligne

#284 Le 30/01/2009, à 11:47

fra_tor_33

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus a écrit :

Merci Bushman02,

Le problème que vous avez rencontré avec fra_tor_33 provient donc de xsane+xsane2tess...

je n'ai effectivement pas avancé depuis, c'est la raison pour laquelle je n'ai plus posté.
Je rappelle que la solution xsane+xsane2tess fonctionnait très bien avec la version 8.04
Il serait en effet intéressant d'avoir d'autres témoignages qui confirment ou pas ce problème spécifique à la version 8.10

La reconnaissance de caractères est une fonction particulièrement importante dans le cadre de mon travail. Ayant complètement abandonné Windows, c'est un réel handicap pour moi, à tel point que j'envisage de repasser d'intrepid à hardy mais ce retour en arrière ne me paraît pas non plus très satisfaisant...

Merci en tout cas de continuer à chercher comme je peux le faire de mon côté avec mes modestes connaissances sur linux.

Hors ligne

#285 Le 30/01/2009, à 15:33

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Alors continuons à chercher wink

Pour m'aider à proposer des solutions :

- quel type de ROC es-tu amené à faire dans ton travail (toujours à partir de documents que tu scannes toi-même ? format A4 ? noir sur blanc ?)
- la solution gscan2pdf + tesseract : l'as-tu essayé (si tu as besoin d'explicaiton, n'hésite pas) ? Peut-elle te convenir et remplacer de façon équivalente ce que tu pouvais faire avec xsane+tesseract ?
- serais-tu prêt à faire l'expérience suivante : 1/ scanner un document sur lequel tu veux réaliser la ROC avec Xsane (mais en l'enregistrant en "type : PNG" et non pas en "type : TEXT") 2/ réaliser la ROC en ligne de commande avec tesseract sur le fichier PNG obtenu (là aussi, si tu as besoin d'explication pour faire cela, n'hésite pas). Ce test nous permettrait de décomposer les étapes... et de cerner davantage l'origine du dysfonctionnement...

Hors ligne

#286 Le 30/01/2009, à 16:48

fra_tor_33

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus a écrit :

Alors continuons à chercher wink

Pour m'aider à proposer des solutions :

- quel type de ROC es-tu amené à faire dans ton travail (toujours à partir de documents que tu scannes toi-même ? format A4 ? noir sur blanc ?)
- la solution gscan2pdf + tesseract : l'as-tu essayé (si tu as besoin d'explicaiton, n'hésite pas) ? Peut-elle te convenir et remplacer de façon équivalente ce que tu pouvais faire avec xsane+tesseract ?
- serais-tu prêt à faire l'expérience suivante : 1/ scanner un document sur lequel tu veux réaliser la ROC avec Xsane (mais en l'enregistrant en "type : PNG" et non pas en "type : TEXT") 2/ réaliser la ROC en ligne de commande avec tesseract sur le fichier PNG obtenu (là aussi, si tu as besoin d'explication pour faire cela, n'hésite pas). Ce test nous permettrait de décomposer les étapes... et de cerner davantage l'origine du dysfonctionnement...

ok, je veux bien essayer mais il faut  m'expliquer pour l'étape 2. Quelle ligne de commande dois-je taper dans le terminal pour lancer tesseract ?

Hors ligne

#287 Le 30/01/2009, à 18:33

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Entendu,

Je vais moi-même réviser. C'est en ligne de commande que j'avais commencé à utiliser et tester Tesseract, mais j'ai un peu oublié depuis. Ceci dit, de mémoire, c'est assez simple. Je teste dès que j'ai un moment, et j'indique la démarche précise ici dès que j'ai testé.

A très bientôt.

Hors ligne

#288 Le 30/01/2009, à 22:26

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

[Edit : fra_tor_33, va direct au message 291 de ce fil (samedi 11 h 09)]

Voici la méthode.

1/tu mets le fichier PNG que tu as obtenu à l'étape 1 sur ton bureau (s'il n'y est pas déjà).

Dans ce qui suit, j'ai nommé mon fichier PNG comme suit : essai01.png
Il te faut remplacer "essai01.png" par le nom de ton fichier PNG

2/ tu ouvres un terminal (Applications > Accessoires > Terminal)

3/ tu tapes dans le terminal la commande suivante :

convert   ~/Desktop/essai01.png   ~/Desktop/essai01.tif

+ touche "Entrée"
(ceci permet de convertir le fichier PNG au format TIF (assimilable par tesseract)
le fichier TIF doit apparaître sur le bureau)

4/ tu tapes ensuite la commande suivante
:

tesseract    ~/Desktop/essai01.tif   ~/Desktop/resultat1   -lwt   fra

+ touche "Entrée"
le fichier texte contenant le résultat de la ROC (que j'ai nommé résultat1) doit apparaître sur le bureau... Tu peux l'ouvrir pour vérifier la qualité de la reconnaissance.

Si ça ne se passe pas comme prévu à l'une de ces étapes, copie/colle le contenu du terminal dans un message de ce fil de discussion.

Dernière modification par Sorbus (Le 31/01/2009, à 11:12)

Hors ligne

#289 Le 31/01/2009, à 10:18

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

[Edit : fra_tor_33, va direct au message 291 de ce fil (samedi 11 h 09)]

@fra_tor_33

Après l'essai proposé ci-dessus, peux-tu aussi tenter de nouveau l'enregistrement direct en "type = TEXT", mais en modifiant le chemin indiqué dans la fenêtre Xsane, c'est à dire en mettant :
/home/frator/Desktop/essai01.txt
au lieu de
/home/frator/tmp/.txt

... comme indiqué dans les captures d'écran ci-dessous :

Non pas comme ceci :
mini_090131102010205167.png

... mais comme cela :
mini_090131102111835637.png

Dernière modification par Sorbus (Le 31/01/2009, à 11:12)

Hors ligne

#290 Le 31/01/2009, à 11:09

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut !
(Re)

Je viens enfin de réussir quelque chose :

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/sorbus/tmp/.tif
tesseract:Error:Read of file failed:/home/sorbus/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/sorbus/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/sorbus/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/sorbus/tmp/.txt': Aucun fichier ou dossier de ce type

Je crois donc que j'ai la solution tongue


@fra_tor_33 :
laisse tomber mes messages précédents. Essaye d'abord ceci :

Dans Xsane, va dans "Préférences > Configuration > onglet OCR"
ajouter "-i" et "-o" aux bons emplacements, comme indiqué ici :

Ne pas laisser vide :

mini_090131111205880229.png

Mais ajouter -i (la lettre "i" minuscule) et -o (la lettre "o" minuscule) comme ceci :

mini_09013111134114375.png

Appliquer et Valider,
puis réessayer la ROC.

Au cas où ça ne marcherait pas; il faut peut-être aussi
remplacer xsane2tess 1.1 par la version 1.0
(revenir à xsane2tess 1.0 : voir nos messages sur ce fil les 4 et 5 décembre)

Dernière modification par Sorbus (Le 31/01/2009, à 11:21)

Hors ligne

#291 Le 10/03/2009, à 10:40

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je reprends le fil de ce fil... sous Jaunty alpha 5 qui semble bien fonctionner.
Seule ombre au tableau : xsane2tess sous Xsane 0.996.
Avant de poster, j'ai relu les pages précédentes de ce fil et j'ai constaté que je retrouve un problème déjà rencontré. Message d'erreur :

convert: missing an image filename `/home/jlc/tmp/.tif' @ wand/convert.c/ConvertImageCommand/2710.
Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/jlc/tmp/.tif
tesseract:Error:Read of file failed:/home/jlc/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/jlc/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/jlc/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/jlc/tmp/.txt': Aucun fichier ou dossier de ce type

J'ai donc essayé les différentes solutions utilisées précédemment par les uns ou par les autres (réinstallation de Xsane, utilisation de différents paquets, etc.) : rien ne change.
Si j'utilise tesseract en ligne de commande, mon fichier se nommant "out.tif", j'obtiens :

jlc@jlc-laptop:~$ tesseract    ~/Desktop/out.tif   ~/Desktop/resultat1   -lwt   fra
read_variables_file:Can't open /usr/share/tesseract-ocr/tessdata/configs/fraUnable to load unicharset file /usr/share/tesseract-ocr/tessdata/eng.unicharset

Une raison à ce message : c'est que "/usr/share/tesseract-ocr/tessdata/configs/fra" n'existe pas à l'endroit où il devrait être. Pourtant, j'ai bien installé le paquet de langue puisque  tesseract fonctionne parfaitement avec gscan2pdf.

Si quelqu'un a une idée, merci d'avance.

Hors ligne

#292 Le 24/03/2009, à 17:09

16ar

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

Est il possible dans l'état actuel de l'OCR sous GNU/Linux de scanner un document et d'en sortir un pdf mis en forme avec la reconnaissance de texte ?
Je dois avouer que la sortie en mode texte est pratique pour des lecteur portable ne supportant pas le pdf. Mais pour numériser des documents officiels en vue d'archive, je préfererais avoir accès aussi au texte dans le pdf, et ne pas avoir un fichier texte à coté non formatté.

Est ce que je n'ai pas trouvé quelque chose qui existe déjà ? Ou cela n'existe pas encore sous Linux (sous windows, avec les outils HP ca fonctionne, les pdf ont le texte reconnu integré dans le fichier, au bon endroit, etc)

Merci !

Hors ligne

#293 Le 25/03/2009, à 21:42

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@16ar,
Ce que tu souhaites est la reconnaissance non seulement du texte, mais de la mise en page. Je ne crois pas que cela existe pour l'instant sous Linux avec des logiciels open source.

Tesseract est bon pour la reconnaissance de caractères, mais ne reconnait pas la mise en page. En principe, Ocropus devrait permettre la reconnaissance de la mise en page, mais je n'ai pas eu le temps de tester, et ne pourrait le faire avant plusieurs mois au mieux. J'espère que d'autres pourront s'y plonger et nous donner des infos.

Quant à sortir le document reconnu directement au format pdf, je ne sais pas. Peut-être un jour si gscan2pdf se met à utiliser Ocropus ? A ma connaissance, ça n'est pas encore au point. Mais je n'ai fait aucune recherche sérieuse au sujet de l'évolution de l'ocr sous Linux depuis 1 an...

@Bushman02
Je n'avais pas vu ton message qui a déjà 15 jours. C'est à mon avis assez facile à solutionner en créant un lien symbolique de "/usr/share/tesseract-ocr/tessdata/configs/fra" de l'endroit où il devrait être vers l'endroit où il est...

Hors ligne

#294 Le 27/03/2009, à 11:15

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci Sorbus mais "/usr/share/tesseract-ocr/tessdata/configs/fra" n'existe pas du tout : aucune trace de "fra" dans "configs", d'où le problème ! Dans "tessdata", je trouve seulement 8 fichiers préfixés "fra.". Est-ce à partir de l'un d'eux qu'il faut créer un lien symbolique ?
En désespoir de cause, j'ai tenté une réinstallation totale ; rien de changé : même message d'erreur dans le dossier "tmp".
En ligne de commande, c'est un peu différent . J'obtiens :

read_variables_file:Can't open /usr/share/tesseract-ocr/tessdata/configs/fraCould not open file, -lwt

ce qui, malgré mes connaissances chancelantes me semble confirmer l'absence mentionnée ci-dessus.
À voir.

Hors ligne

#295 Le 27/03/2009, à 17:02

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@Bushman02,
Ma précédente réponse est sans intérêt. Je n'avais fait que survoler ton message. Il est normal qu'il n'y ait pas de fichier "fra". C'est un problème sur la commande entrée, et sans doute aussi, en plus, un problème d'emplacement des fichiers de langue.

Question 1 :
Par quel moyen as-tu installé tesseract ? Par le paquet des dépôts Ubuntu (par Synaptic, apt-get ou autre ?) ou bien par le paquet de b52 ?

Question 2 :
Si tu fais en ligne de commande :

jlc@jlc-laptop:~$ tesseract    ~/Desktop/out.tif   ~/Desktop/resultat1   -l   fra

au lieu de :

jlc@jlc-laptop:~$ tesseract    ~/Desktop/out.tif   ~/Desktop/resultat1   -lwt   fra

ça ne marche pas non plus ? As-tu alors un message d'erreur et lequel ?

Question 3 :
quel est le chemin complet du répertoire tessdata où se trouvent les fichiers de langues préfixées "fra" (je pense bien qu'il peut y avoir là besoin de créer un lien symbolique... mais pas tout à fait comme je l'avais suggéré l'autre jour).

@+

Dernière modification par Sorbus (Le 27/03/2009, à 17:04)

Hors ligne

#296 Le 27/03/2009, à 18:24

16ar

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci de ta réponse wink Dommage pour nous smile

Hors ligne

#297 Le 27/03/2009, à 18:55

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci beaucoup Sorbus ! Voici mes réponses :
-1- ma première installation avait été faite par synaptic ; j'ai effectué la seconde avec apt-get et ensuite réinstallé xsane2tess à partir du script de la documentation. Je n'ai pas testé le paquet de b52.
-2- Si j'utilise la commande que tu me proposes, j'ai :

jlc@jlc-laptop:~$  tesseract    ~/Desktop/out.tif   ~/Desktop/resultat1   -l   fra
Tesseract Open Source OCR Engine
TIFFOpen: /home/jlc/Desktop/out.tif: Cannot open.
tesseract:Error:Read of file failed:/home/jlc/Desktop/out.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
jlc@jlc-laptop:~$

-3- Les fichiers préfixés "fra" sont dans le tessdata de "/usr/share/tesseract-ocr/tessdata"
Si tu peux m'aider (une fois de plus !) fais-le, mais après le weekend : pas de caractère d'urgence en ce qui me concerne.
Merci encore et bon weekend.

Hors ligne

#298 Le 28/03/2009, à 10:31

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

P.S. : tu as bien toujours un fichier "out.tif" sur ton bureau (/home/jlc/Desktop/out.tif) ?

P.S. 2 : l'option -lwt n'est disponible que si Tesseract a été installé avec le paquet de b52. Cette option n'est d'ailleurs pas indispensable sauf cas particuliers. Explications dans le documentation Ubuntu francophone sur Tesseract. En tout état de cause, puisque tu as installé Tesseract par les paquets des dépôts Ubuntu, et non par celui de b52, l'option "- lwt" est indisponible sur ton système. Il était donc normal que ça ne marche pas dans le deuxième exemple de ton message du 10 mars.

Dernière modification par Sorbus (Le 28/03/2009, à 10:38)

Hors ligne

#299 Le 28/03/2009, à 18:31

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci Sorbus.
a/ Oui, j'ai toujours un fichier out.tif du début à la fin de l'opération. Il est effectivement étonnant que le message affiché révèle une impossibilité à le lire.
b/ Vu pour ton P.S. 2... J'ai même désinstallé Tesseract et réinstallé avec le paquet de b52 : toujours rien.

Ne t'inquiète plus pour moi. Peut-être faut-il attendre la version finale de Jaunty, et d'autres retours, pour que tout soit compréhensible.
Pour ma part, je me suis intéressé au problème par désir de comprendre quelques mécanismes plus que par besoin. Si j'ai une reconnaissance à faire ces jours-ci, j'utiliserai gscan2pdf, il me suffira amplement.
Merci encore.

Hors ligne

#300 Le 28/03/2009, à 21:22

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Et maintenant que tu as réinstallé avec le paquet de b52, si tu fais :
jlc@jlc-laptop:~$  tesseract    ~/Desktop/out.tif   ~/Desktop/resultat1   -lwt   fra
ça fait quoi ?

Hors ligne

Haut de page ↑