Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bushman02 · Le 29/03/2009, à 08:16

Avec le paquet de b52 et la commande que tu proposes :

jlc@jlc-laptop:~$ tesseract ~/Desktop/out.tif ~/Desktop/resultat1 -lwt fra
Tesseract Open Source OCR Engine
modif command line by b52
imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
-l = Lang Without Tiff
-lwt = Lang With Tiff
Tesseract Open Source OCR Engine
TIFFOpen: /home/jlc/Desktop/out.tif: Cannot open.
tesseract:Error:Read of file failed:/home/jlc/Desktop/out.tif
Signal_exit 31 ABORT. LocCode: 3 AbortCode: 3

C'est-à-dire le même message que si j'utilise "l" au lieu de "lwt"

À noter (?) : dans /usr/share/, je n'ai plus seulement "tesseract-ocr" ; à l'intérieur de celui-ci, un lien pointe vers "tessdata", situé lui aussi dans /usr/share/. Je n'avais pas remarqué, précédemment, cette configuration en deux parties...
Merci ++

Sorbus · Le 29/03/2009, à 18:39

Bonjour Bushman02,

Avec le paquet de b52, tu as essayé aussi l'option "-l fra" ?

Si oui, le résultat est donc identique quel que soit l'option. J'avais pensé que ton "out.tif" n'était pas lu parce que c'était peut-être un "tif compressé" (que tesseract ne lit pas directement). Mais il faut vérifier encore cela. Peux-tu ouvrir ton fichier out.tif avec "gimp", et l'enregistrer sous "type de fichier : image tiff" et dans la fenêtre suivante : "compression : aucun".

Tu lui gardes son nom "out.tif", puis tu réessayes, pour voir :
jlc@jlc-laptop:~$ tesseract ~/Desktop/out.tif ~/Desktop/resultat1 -lwt fra
et
jlc@jlc-laptop:~$ tesseract ~/Desktop/out.tif ~/Desktop/resultat1 -l fra

Comme ça, on saura si ça vient d'un "tif compressé" ou d'autre chose.

Ta remarque sur le lien pointant vers "tessdata" est juste. Cela provient du paquet tesseract de b52. Nous avions remarqué l'an dernier avec les amis de "Linux on the root" que gscan2pdf allait chercher les fichiers de langues pour tesseract dans "/usr/share/tesseract-ocr/tessdata"... mais que certains paquets deb pour les langues (pour tesseract) installaient par défaut les langues dans "/usr/share/tessdata"... la paquet de "b52" permettait de contourner ce problème au moyen de ce lien symbolique. Mais ceci ne résoud pas la question qui nous occupe pour l'instant.

A suivre...

Dernière modification par Sorbus (Le 03/04/2009, à 06:30)

Bushman02 · Le 29/03/2009, à 21:02

Bonsoir Sorbus,
J'ai effectué la manœuvre que tu me conseilles : même résultat. D'ailleurs avant et après le passage dans Gimp, mon fichier "out.tif" fait 1,6 Mo ; il ne devait donc pas être compressé à l'origine (1/4 de page de revue, scanné avec Xsane 0.996, à 300 dpi).
(Dans les deux cas, j'ai vérifié que gscan2pdf s'acquitte de sa tâche à quelques signes près !)

Merci une fois de plus...

Ar Foll · Le 30/03/2009, à 11:02

Bonjour,

j'ai lu attentivement ce forum et j'avoue être un peu perdu.
Je suis sous intrépid et j'ai installé tesseract 2.03-3 et le script xsane2tess 1.0 via les deb de « b52 » (après avoir essayé avec synaptic)
j'ai bien suivi les tutos ubuntu et le fichier texte que j'obtiens est invariablement vierge.

Je n'ai une maîtrise qu'approximative de linux (de moins en moins j'espère car je ne souhaite pas revenir sur windows)

Si quelqu'un a une idée je suis preneur.
Merci

Bushman02 · Le 30/03/2009, à 18:29

Ayant reçu beaucoup de bons conseils sur ce forum, et notamment sur ce fil, je suis désolé de ne pouvoir t'aider : je suis passé directement de Gutsy à Jaunty, mon ordinateur étant rétif aux deux versions 8.04 et 8.10. Je ne connais donc pas les problèmes propres à Intrepid. Je suis sûr que quelqu'un pourra te donner très vite des conseils judicieux.

Sorbus · Le 31/03/2009, à 21:42

Bonjour Ar Foll,

Je suis sous Intrepid, avec comme toi :
- tesseract 2.03-3 installé par le deb de b52
- xsane2tess 1.0 installé par le deb de GuadaUsers

... et tout ceci fonctionne très bien sur mon système (j'ai scanné entièrement un livre de 90 pages il y a quelques semaines).

Je vois deux explications possibles à ton fichier texte vierge :

- soit une petite erreur de manip
Dans ce tuto, as-tu bien, en plus de l'installation du deb de GuadaUsers, créé le dossier tmp dans /home/ton_identité ?
Dans le paragraphe sur l'utilisation, as-tu bien suivi précisément toutes les indications données ?

- soit une difficulté particulière de la ROC par tesseract sur la "matière première" que tu lui fournis... Sur quel type de document essayes-tu de faire une reconnaissance optique de caractères ? Un texte écrit en noir sur fond blanc ? Manuscrit ? Ecrit à la machine ou à l'ordinateur ? en couleur sur fond couleur ?

@ Bushman02
Pour ton problème actuel... pour l'instant, je sèche...
tesseract ne fonctionne pas en ligne de commande sur ton fichier out.tif... mais si tu ouvres ce même fichier out.tif avec gscan2pdf, pour effectuer la ROC avec tesseract via l'interface graphique de gscan2pdf, ça marche ?

Ou bien est-ce que la ROC marche avec gscan2pdf si ton document est scanné d'abord avec gscan2pdf ?

Dernière modification par Sorbus (Le 31/03/2009, à 21:52)

Ar Foll · Le 01/04/2009, à 07:09

Bonjour Sorbus,

Après une énième vérification, dans /home/votre_identité/ j'ai bien un dossier tmp avec un fichier xsane2tess.log dedans.
Pour la configuration, dans Préférences → Configuration → Onglet "OCR", j'ai bien
- Commande OCR : xsane2tess -l fra
- Option de fichier d'entrée : -i
- Option de fichier de sortie : -o

Quant aux documents, j'ai fait plusieurs essais mais globalement, il s'agit de textes noirs sur fond blanc.

En fait tout se passe comme si la conversion n'avait pas lieu (la conversion semble instantanée) et que tesseract n'était pas sollicité.

Merci pour les conseils

Sorbus · Le 01/04/2009, à 21:37

Après une énième vérification, dans /home/votre_identité/ j'ai bien un dossier tmp avec un fichier xsane2tess.log dedans.

Peux-tu nous donner le contenu du fichier xsane2tess.log ?

Ar Foll · Le 02/04/2009, à 09:35

À la lecture du fichier, il y a effectivement un problème. Le format .tiff n'a pas l'air d'être reconnu.

convert: missing an image filename `/home/erwan/tmp/.tif'.
Tesseract Open Source OCR Engine
TIFFOpen: /home/erwan/tmp/.tif: Cannot open.
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.
Tesseract Open Source OCR Engine
TIFFOpen: /home/erwan/tmp/.tif: Cannot open.
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.
Tesseract Open Source OCR Engine
TIFFOpen: /home/erwan/tmp/.tif: Cannot open.
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.

Tesseract Open Source OCR Engine
	 modif command line by b52
	 imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
	-l   = Lang Without Tiff
	-lwt = Lang With Tiff

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/erwan/tmp/.tif
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.

Tesseract Open Source OCR Engine
	 modif command line by b52
	 imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
	-l   = Lang Without Tiff
	-lwt = Lang With Tiff

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/erwan/tmp/.tif
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.

Tesseract Open Source OCR Engine
	 modif command line by b52
	 imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
	-l   = Lang Without Tiff
	-lwt = Lang With Tiff

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/erwan/tmp/.tif
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.

Tesseract Open Source OCR Engine
	 modif command line by b52
	 imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
	-l   = Lang Without Tiff
	-lwt = Lang With Tiff

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/erwan/tmp/.tif
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.

Tesseract Open Source OCR Engine
	 modif command line by b52
	 imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
	-l   = Lang Without Tiff
	-lwt = Lang With Tiff

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/erwan/tmp/.tif
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.

Tesseract Open Source OCR Engine
	 modif command line by b52
	 imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
	-l   = Lang Without Tiff
	-lwt = Lang With Tiff

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/erwan/tmp/.tif
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type
convert: missing an image filename `/home/erwan/tmp/.tif'.

Tesseract Open Source OCR Engine
	 modif command line by b52
	 imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
	-l   = Lang Without Tiff
	-lwt = Lang With Tiff

Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/erwan/tmp/.tif
tesseract:Error:Read of file failed:/home/erwan/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3
cat: /home/erwan/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/erwan/tmp/.txt': Aucun fichier ou dossier de ce type

Sorbus · Le 02/04/2009, à 22:38

En effet...
... mais as-tu remarqué le nom du fichier ?
".tif"
C'est un peu court comme nom de fichier : juste le point suivi de l'extension "tif".

ceci dans le dossier /tmp

... /tmp/.tif

On a déjà noté sur ce fil ce truc étrange, sans l'avoir vraiment résolu.

Ce fut d'abord le 30 novembre 2008, par fra_tor_33 : voici son message.

Puis le 10 décembre 2008, Bushman02 signalait la même chose.

Le 10 mars, Bushman02 signalait le même problème sous Jaunty.

Il y a donc un véritable problème quelque part... J'en viens à ma demander pourquoi ça continue à marcher chez moi...

Le 31 janvier dernier, j'avais réussi à reproduire la même erreur.

Pour cela, il m'a fallu enlever "-i" et "-o" dans l'interface graphique XSane, précisément dans "Préférences > Configuration > onglet OCR"

Je me demande donc si chez vous ces options sont bien placées (aux bons endroits).

cf.
Ajouter -i (la lettre "i" minuscule) et -o (la lettre "o" minuscule) comme ceci :

Pourtant, d'après ta réponse Ar Foll, c'est bien ainsi chez toi. Si c'est bien le cas (sans espace entre "-" et "i" ni entre "-" et "o"... sans espace non plus avant le "-"...), il nous restera à comprendre pourquoi, chez vous, tout se passe comme si ces options n'étaient pas prises en compte par XSane+xsane2tess...

P.S. : Ar Foll, en attendant que ce problème XSane+xsane2tess soit résolu, as-tu essayé d'utiliser gscan2pdf pour effectuer la ROC sur les documents qui t'intéressent ?

Dernière modification par Sorbus (Le 03/04/2009, à 06:40)

Bushman02 · Le 03/04/2009, à 12:00

Je reprends ce fil après quelques jours d'absence.
Pour en revenir à la question du post n°307, la réponse est "oui" : le même fichier, non reconnu en ligne de commande est parfaitement traité par gscan2pdf, qu'il soit issu directement de xsane ou qu'il soit passé par Gimp (compression : aucune).
À titre de tentative supplémentaire, j'ai remplacé mon script /bin/xsane2tess par celui du paquet deb de guadausers : rien de changé.

P.S. : en tâtonnant, c'est-à-dire en regardant ici et là, je constate que lorsque j'ouvre, dans xsane, l'onglet "préférences", puis "configuration", la première page qui apparaît, intitulée "Enregistrer" et qui indique les permissions, ne donne précisément aucune permission à l'utilisateur : les deux lignes r-w-x sont d'un gris très pâle, alors que dans les deux autres colonnes ("groupe" et "tous"), des permissions sont accordées. Je me demande si c'est normal, n'ayant, par le passé, jamais vraiment prêté attention à cela.

Nouveaux remerciements...

Sorbus · Le 03/04/2009, à 12:40

Petite recherche Internet sur "/tmp/.tif" + tesseract.

Je ne trouve guère d'info. En plus de fra_tor_33, de Bushman02 et de Ar Foll, on trouve ockeghem, un internaute italien qui signalait le même problème (mêlé à quelques autres...) le 1er novembre 2008... C'est dans les commentaires à la fin de cette page.

... mais hélas, pas d'indication sur cette page pour résoudre le problème...

La piste suggérée par Bushman02 me semble très intéressante Je regarde ça de plus près.

Voici la copie d'écran chez moi de cet onglet "XSane -> Préférences -> Configuration -> Enregistrer" :

Ça a la même tête que ce qui est indiqué dans cette page de documentation en français sur XSane.

Pouvez-vous mettre les copies d'écran du vôtre, Ar Foll et Bushman02 ?

Dernière modification par Sorbus (Le 03/04/2009, à 14:39)

Sorbus · Le 03/04/2009, à 14:06

J'insiste encore sur un point du message 311 de ce fil :

sans espace entre "-" et "i" ni entre "-" et "o"... sans espace non plus avant le "-"...

Je viens de faire un nouvel essai en ajoutant une espace devant le "-i"... comme indiqué sur cette copie d'écran

... et j'obtiens la même erreur que celle que vous signalez :

convert: missing an image filename `/home/sorbus/tmp/.tif'.
Tesseract Open Source OCR Engine
modif command line by b52
imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
-l = Lang Without Tiff
-lwt = Lang With Tiff
Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/sorbus/tmp/.tif
tesseract:Error:Read of file failed:/home/sorbus/tmp/.tif
Signal_exit 31 ABORT. LocCode: 3 AbortCode: 3
cat: /home/sorbus/tmp/.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/sorbus/tmp/.tif': Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/sorbus/tmp/.txt': Aucun fichier ou dossier de ce type

Attention : l'affaire est subtile. Car la même erreur arrive aussi s'il n'y a pas d'espace devant le "-i", mais s'il y en a une après le "-l fra"... ce qui saute moins aux yeux.

Dernière modification par Sorbus (Le 03/04/2009, à 14:38)

Bushman02 · Le 03/04/2009, à 15:29

Réglé !
Que ta modestie n'en souffre pas, mais je ne sais comment t'appeler : Sorbus-le-Subtil ou carrément Magnus Sorbus, etc. -- Choisis !
En tout état de cause, dès ce matin, j'avais vérifié les problèmes d'espaces que tu signalais à Ar Foll et j'avais vaguement repéré que le "-l" avait perdu une espace devant lui. J'avais donc rectifié, mais sans rien obtenir. Et pour cause : il s'agissait bien d'un problème d'espace mais, en effet, comme tu le suggérais, APRÈS le "-l fra".
Désormais tout fonctionne à merveille : pour faire bon poids bonne mesure, après tant d'essais infructueux, j'en ai effectué cinq, tous couronnés de succès! J'ai même obtenu un sans faute ou presque avec ma page-test favorite (L'Éducation sentimentale, page 9, collection l'école des lettres et composée en Times corps 9 ou 10) : seul un petit "1" (arabe) en exposant (renvoi en bas de page) devient un "I" (romain), mais la note de bas de page elle-même (qui doit être en Times corps 7 ou 8), est parfaitement reconnue.
Remarque 1 : les réglages de xsane qui fonctionnent le mieux sont, de haut en bas pour faire vite : 300, 1.01, 0.0 et 0.0.
Remarque 2 : j'obtiens toujours les mêmes messages d'erreur avec la ligne de commande

jlc@jlc-laptop:~$ tesseract ~/Desktop/out.tif ~/Desktop/resultat1 -lwt fra
Tesseract Open Source OCR Engine
   modif command line by b52
   imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
-l = Lang Without Tiff
-lwt = Lang With Tiff
Tesseract Open Source OCR Engine
TIFFOpen: /home/jlc/Desktop/out.tif: Cannot open.
tesseract:Error:Read of file failed:/home/jlc/Desktop/out.tif
Signal_exit 31 ABORT. LocCode: 3 AbortCode: 3
jlc@jlc-laptop:~$ tesseract ~/Desktop/out.tif ~/Desktop/resultat1 -l fra
Tesseract Open Source OCR Engine
   modif command line by b52
   imagename outputbase [ -l lang OR -lwt lang] [configfile [[+|-]varfile]...
-l = Lang Without Tiff
-lwt = Lang With Tiff
Tesseract Open Source OCR Engine
IMAGE::read_header:Error:Can't open file:/home/jlc/Desktop/out.tif
tesseract:Error:Read of file failed:/home/jlc/Desktop/out.tif
Signal_exit 31 ABORT. LocCode: 3 AbortCode: 3

Merci donc, comme toujours.
J'espère que Ar Foll règlera le problème de son côté au plus vite.
J'espère aussi que tout cela signifie que xsane2tess fonctionnera sous Jaunty.
P.S. : tant que je suis lancé dans les tests, si tu juges utile que j'en effectue d'autres avec les paquets de Synaptic au lieu des paquets .deb, signale-le moi.

Sorbus · Le 03/04/2009, à 16:19

J'ai pas mal tatonné en fait depuis que fra_tor_33 avait signalé le problème en novembre...

Je signale le truc à fra_tor_33 en mp.

J'espère que Ar Foll va pouvoir lui aussi corriger le problème avec ces indications (et s'il peut le confirmer ici, ce serait sympa). Dans ce cas, j'ajouterai une note dans la documentation francophone Ubuntu sur xsane2tess, pour attirer l'attention sur ce point, de façon à ce que d'autres ne rencontrent pas le problème.

J'ai remarqué ces derniers jours que j'avais moi aussi le problème avec tesseract en ligne de commande... (je n'avais pas testé depuis longtemps, puisque tout marchait bien chez moi avec les interfaces graphiques). Il est un peu surprenant que gscan2pdf et xsane+xsane2tess fonctionnent bien en utilisant tesseract... et que tesseract patine en ligne de commande. Mais bon... on verra ça plus tard !

P.S. : tant que je suis lancé dans les tests, si tu juges utile que j'en effectue d'autres avec les paquets de Synaptic au lieu des paquets .deb, signale-le moi.

Je veux bien. A priori, je pense qu'il ne devrait pas y avoir de problème... Mais les choses sont parfois tellement subtiles qu'il vaut mieux vérifier.

Merci d'ailleurs de prendre un temps d'avance en testant les affaires sous Jaunty.

Dernière modification par Sorbus (Le 03/04/2009, à 16:20)

Bushman02 · Le 03/04/2009, à 17:30

Résultats des essais complémentaires.
Sous Jaunty, donc :
-- tesseract depuis Synaptic (avec seulement allemand et français) + xsane2tess à partir du script de la doc : fonctionne.
-- tesseract de B52 + xsane2tess de la doc : fonctionne.
-- tesseract de B52 + xsane2tess de GuadaUsers : fonctionne

-- tesseract de Synaptic n'accepte pas le paquet de GuadaUsers (dépendances non satisfaites)... mais je crois me souvenir que cela avait déjà été signalé ci-dessus.

Trois combinaisons fonctionnent donc ; en revanche toutes donnent un résultat d'erreur avec la ligne de commande.

Merci encore !

Ar Foll · Le 03/04/2009, à 21:42

Bonsoir Sorbus et Bushman02,

Beaucoup d'éléments et d'indications. Je vais m'y atteler. Dès que j'ai quelque chose je vous mets au courant.
Et merci encore pour la disponibilité.

Sorbus · Le 03/04/2009, à 22:39

Pour ne pas t'obliger à tout lire, les préliminaires (début d'explication) sont ici et la solution serait là (notamment les deux dernières lignes). C'est du moins ce qui a dépanné Bushman02.

Dernière modification par Sorbus (Le 03/04/2009, à 22:40)

Sorbus · Le 04/04/2009, à 21:39

En attendant les autres retours quant au problème xsane2tess évoqué par nos derniers échanges sur ce fil, je change de question... tout en restant dans le sujet.

A propos d'Ocropus, je viens de trouver ces indications très récentes, contenant des précisions sur le mode d'installation (traduction française via Google). Il faudra bien nous mettre à tester Ocropus.

Déjà, il y a un paquet ocropus et un paquet "ocropus-data" sous Debian sid...

(non utilisables je pense sous Ubuntu... sauf pour tests sur une installation de test virtualisée... mais on note simplement que ça bouge...)

Dernière modification par Sorbus (Le 05/04/2009, à 14:32)

Ar Foll · Le 05/04/2009, à 10:10

Bonjour et merci à tous,

Grâce à vos indications, j'ai pu régler mon affaire.
Voici la remarque qui a tout débloqué

Sorbus a écrit :

Attention : l'affaire est subtile. Car la même erreur arrive aussi s'il n'y a pas d'espace devant le "-i", mais s'il y en a une après le "-l fra"... ce qui saute moins aux yeux.

C'était effectivement un espace sournois derrière "-l fra". Bien difficile à repérer!
À présent la reconnaissance de caractère fonctionne parfaitement en français en tous cas. Il me reste à faire des essais dans les autres langues dont j'ai besoin (espagnol - anglais) mais il devrait s'agir de formalités.
Je vous tiens au courant.

Sorbus · Le 05/04/2009, à 11:13

Merci pour le retour Ar Foll...
... nous avons donc fait un bon "débogage de documentation".

Je viens d'ajouter une "note importante" dans la documentation d'xsane2tess.

D'ici quelques jours, si tout va bien, fra_tor_33 devrait nous confirmer qu'avec ces indications, ça marche bien aussi chez lui.

Pour les autres langues :

- il faut qu'elles soient installées. N.B. : si tu as installé tesseract avec le paquet de b52, les langues sont installées, car elles sont incluses dans le paquet. Par contre, si tu as installé tesseract par Synaptic, il faut installer aussi par Synaptic les paquets de langues dont tu as besoin.

- ensuite, il suffit de remplacer dans l'onglet OCR de XSane "xsane2tess -l fra" par "xsane2tess -l spa" (par exemple, pour l'espagnol)... sans espace après le spa
et pour les autres langues, les codes sont indiqués ici.

Dernière modification par Sorbus (Le 05/04/2009, à 11:20)

Bushman02 · Le 05/04/2009, à 21:15

Bonsoir, Sorbus.
J'ai utilisé les liens que tu donnes dans ton post n° 320 et jeté un coup d'œil aux nouveautés concernant ocropus. À suivre...

Sambabasse · Le 08/04/2009, à 18:57

Bonjour,je voulais savoir s'il y avait un moyen de reconnaître une écritire manuscrite au scannage plutôt qu'une informatique ?
Car j'ai aps mal de fiches de mes cours que je voudrais reprendre, et les informatisées car elles risquent d'être modifiée dans le future, et toute les retaper à l'ordi sera super long.
Je précise que j'écris en script, mais plutôt mal ...
Un logiciel pourrait faire ça ?

fra_tor_33 · Le 13/04/2009, à 18:22

Bonjour,

Je viens de relire le fil puisqu'il y avait pas mal de temps que je n'étais pas venu sur ce forum.
Et bien, cela fonctionne chez moi aussi !! Il restait bien un espace après "i-fra", impossible à détecter, donc !!

Merci infiniment à Sorbus pour sa patience, son efficacité et sa gentillesse.

Je reste un inconditionnel d'ubuntu, adopté il y a quelques mois seulement, mais il faut bien reconnaître que ce genre de souci à de quoi rebuter plus d'un windowsien qui veut franchir le pas !!

Enfin bref, windows génère d'autres soucis et n'a pas une telle communauté d'entraide !

Bonne continuation à tous ^^
fra_tor_33

Sorbus · Le 13/04/2009, à 22:15

@ fra_tor_33
Merci pour ce retour.

@ Sambabasse
Question déjà venue sur ce fil. Hélas, je pense que la réponse est négative. Voir ici. On peut faire de la reconnaissance optique de caractères sur une écriture informatique, et aussi sur une écriture dactylographiée, même de qualité médiocre (voir ici), mais sur une écriture manuscrite, surtout irrégulière, pas avec les logiciels disponibles sous Linux... et je doute du résultat y compris avec les meilleurs logiciels pros et payants sous Mac ou Windows (mais je peux me tromper).

Tu peux scanner tes cours à un format image, si tu veux les conserver numérisés... Mais si tu souhaitais une reconnaissance permettant de les mettre au format texte pour pouvoir les retravailler, je crois que c'est compromis

Dernière modification par Sorbus (Le 13/04/2009, à 22:25)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#301 Le 29/03/2009, à 08:16

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#302 Le 29/03/2009, à 18:39

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#303 Le 29/03/2009, à 21:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#304 Le 30/03/2009, à 11:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#305 Le 30/03/2009, à 18:29

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#306 Le 31/03/2009, à 21:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#307 Le 01/04/2009, à 07:09

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#308 Le 01/04/2009, à 21:37

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#309 Le 02/04/2009, à 09:35

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#310 Le 02/04/2009, à 22:38

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#311 Le 03/04/2009, à 12:00

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#312 Le 03/04/2009, à 12:40

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#313 Le 03/04/2009, à 14:06

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#314 Le 03/04/2009, à 15:29

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#315 Le 03/04/2009, à 16:19

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#316 Le 03/04/2009, à 17:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#317 Le 03/04/2009, à 21:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#318 Le 03/04/2009, à 22:39

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#319 Le 04/04/2009, à 21:39

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#320 Le 05/04/2009, à 10:10

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#321 Le 05/04/2009, à 11:13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#322 Le 05/04/2009, à 21:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#323 Le 08/04/2009, à 18:57

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#324 Le 13/04/2009, à 18:22

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#325 Le 13/04/2009, à 22:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums