Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus · Le 19/01/2008, à 18:52

J'ai supprimé la copie inutile dans /usr/share
... et vérifié : ça fonctionne très bien.

Je relève simplement ceci :

Si tesseract 2.01 est compilé de la source, il met les fichiers de langue par défaut dans /usr/share/tessdata. Quand j'ai fait l'emballage Debian/Ubuntu, je les ai mis dans /usr/share/tesseract-ocr/tessdata et c'est oà¹ gscan2pdf v0.9.19 regarde pour voir quelles langues sont installées. Dans la sortie prochaine, gscan2pdf regardera dans les deux chemins.

Il semble donc que tesseract 2.01 compilé à la source ne mette pas les fichiers de langue par défaut dans /usr/share/tessdata mais dans /usr/local/share/tessdata

Si dans la prochaine version de gscan2pdf, il regarde les deux chemins :
/usr/share/tessdata
et
/usr/share/tesseract-ocr/tessdata
...
et que les fichiers de langues sont toujours dans :
/usr/local/share/tessdata

le problème ne sera pas résolu.

peut-être faut-il le signaler au développeur de gscan2pdf (mais je ne cause pas anglais... je transmets donc le témoin).

Pour le reste, cette fois, on peut s'attaquer au choix des meilleurs options pour scanner... et à l'apprentissage. La base de travail est saine

Dernière modification par Sorbus (Le 19/01/2008, à 18:53)

zarer · Le 20/01/2008, à 03:53

Bonsoir Sorbus,

Sorbus a écrit :

peut-être faut-il le signaler au développeur de gscan2pdf (mais je ne cause pas anglais... je transmets donc le témoin).
Pour le reste, cette fois, on peut s'attaquer au choix des meilleurs options pour scanner... et à l'apprentissage. La base de travail est saine

Je crois qu'il en a conscience... Mais mieux vaut lui signaler tout de même.

Au fait... plutà´t que de copier l'ensemble des fichiers /tessdata dans /usr/share/tesseract-ocr/ il est préférable de créer des liens symboliques (suggestion de gldx), comme suit :

sudo ln -s /usr/local/share/tessdata/ /usr/share/tesseract-ocr/

Et tout baigne !

@+

Sorbus · Le 20/01/2008, à 10:20

Au fait... plutôt que de copier l'ensemble des fichiers /tessdata dans /usr/share/tesseract-ocr/ il est préférable de créer des liens symboliques (suggestion de gldx)

Excellente remarque. Je rectifie ça (chez moi... et dans la doc francophone).

Par contre, de mon côté, je suis temporairement grillé pour l'utilisation de gscan2pdf. J'ai essayé différentes options de façon très pragmatique... pour voir ce que ça donnait... mais sans trop comprendre.

J'ai donc notamment cliqué sur "Outil --> Threshold"
Résultat : plantage complet d'Ubuntu. Tout figé. Impossible de passer en console par Ctrl+Alt+F1 et Cie... ni de redémarrer le serveur X. J'ai donc du appuyer sur le bouton "power" du PC. Redémarrage normal, mais...

--> lorsque j'ai voulu à nouveau scanner avec gscan2pdf, une machine infernale est lancée... Il scanne une fois... et relance immédiatement le balayage du scanneur... pour faire une nouvelle page... et ainsi de suite sans jamais s'arrêter... Je clique sur annuler... ça continue à scanner... je ferme la fenêtre avec les options de scan, ça continue à scanner... Pour stopper, il faut fermer gscan2pdf.

--> j'ai essayé une désinstallation complète de gscan2pdf 0.9.19 par Synaptic... puis réinstallation par Synaptic de 0.9.13 : pareil.
--> j'ai désinstallé à nouveau la version 0.9.13 et réinstallé par "wget (...)" la version 0.9.19" (entre temps, j'ai arrêté le PC... éteint le scanneur)...
Résultat : d'abord, refus de scanner et le message (connu) :

Fermeture de gscan2pdf... puis ouverture à nouveau : je lance le scan... plus de message d'erreur, mais la machine infernale est relancée.

Il y a un bug quelque part. Je remarque aussi qu'après lancement de la machine infernale, si je ferme gscan2pdf, ça stoppe le scanneur, mais ça ne le libère pas (Kooka ou Xsane ne le trouvent pas. Par contre, une fois le PC redémarré, Xsane et Kooka, eux, fonctionnent normalement. Le bug est donc du côté de gscan2pdf ou de la façon dont je l'ai installé. Il y a un problème "threshold" (bug lié à ma config matériel, ce scanneur Epson ? Peut-être... peut-être pas).

Conclusion... En attendant de trouver la solution, je reviens à ma méthode antérieure : scan au format TIFF avec Xsane, puis lancement de la ROC avec tessercat 2.01 en ligne de commande. Le résultat est le même.

J'ajoute juste deux pierres à l'édifice :
--> une page gscan2pdf dans la documentation Ubuntu francophone, avec un lien vers cette page dans la documentation sur tesseract.
--> une remarque à propos de unpaper. Je ne sais pas si le traitement unpaper a pour effet de "repasser l’image au format .tif" des images .jpg, .png ou autre comme dit dans l'article de Linux on the root. Je n'ai hélas pas pu tester ça
Mais il est certain que l'objet de unpaper est de redresser des pages, d'enlever des parasites (des marges noires par exemple)... ce qui doit avoir une grande importance avant un traitement ROC/ocr. Notamment quand on scanne des pages de bouquins (difficile d'être bien droit... et sans marges noires). Hélas, je n'ai pas pu tester non plus... mais cette piste est à creuser... en cherchant les bonnes options.

Enfin, une petite remarque : gscan2pdf ne semble pas disposer d'une option de prévisualisation permettant de sélectionner une zone à scanner (Xsane et Kooka le permettent). Pour réaliser de l'OCR, éliminer d'entrée des zones "parasites" par une sélection du texte est une excellente chose. Une idée à transmettre au développeur de gscan2pdf ?

Je n'avais fait mes tests qu'avec une feuille A4 bien calée sur la vitre du scanneur... et j'ai eu plus de mal avec gscan2pdf quand j'ai voulu essayer de scanner des pages d'un petit bouquin... alors que je le fais facilement avec Xsane... ce qui donne du coup un bien meilleur résultat de Roc avec Xsane+tesseract.

P.S. : si, je peux toujours utiliser gscan2pdf comme interface graphique de tesseract pour faire de la ROC (je pourrai donc réaliser d'autres tests avec unpaper)... mais par "Fichier --> Importer" des fichiers scannés avec Xsane. C'est simplement la relation gscan2pdf --> scanneur qui est boguée.

Dernière modification par Sorbus (Le 20/01/2008, à 10:35)

zarer · Le 20/01/2008, à 12:43

Salut Sorbus,

Sorbus a écrit :

Au fait... plutà´t que de copier l'ensemble des fichiers /tessdata dans /usr/share/tesseract-ocr/ il est préférable de créer des liens symboliques (suggestion de gldx)
Excellente remarque. Je rectifie ça (chez moi... et dans la doc francophone).

Belle manière, n'est-ce pas ? Comme on n'en fait pas tous les jours des liens symboliques, on a tendance à les oublier... Faut que je note ça quelque part dans un coin de ma tête !

Sorbus a écrit :

Par contre, de mon cà´té, je suis temporairement grillé pour l'utilisation de gscan2pdf. J'ai essayé différentes options de façon très pragmatique... pour voir ce que ça donnait... mais sans trop comprendre.
[...]
Il y a un bug quelque part. Je remarque aussi qu'après lancement de la machine infernale, si je ferme gscan2pdf, ça stoppe le scanneur, mais ça ne le libère pas (Kooka ou Xsane ne le trouvent pas. Par contre, une fois le PC redémarré, Xsane et Kooka, eux, fonctionnent normalement. Le bug est donc du cà´té de gscan2pdf ou de la façon dont je l'ai installé. Il y a un problème "threshold" (bug lié à ma config matériel, ce scanneur Epson ? Peut-être... peut-être pas).
Conclusion... En attendant de trouver la solution, je reviens à ma méthode antérieure : scan au format TIFF avec Xsane, puis lancement de la ROC avec tessercat 2.01 en ligne de commande. Le résultat est le même.
[...]

Fà¢cheux comme problème... Je me souviens avoir eu un p'tit souci similaire. Manifestement, j'avais killé gscan2pdf avant qu'il ne transforme ma machine en lave-linge !

En fait, je dois bien te l'avouer, je n'utilise la fonction de scan de gscan2pdf que pour le transfert direct en pdf. C'est là oà¹ je la trouve intéressante.

Sorbus a écrit :

J'ajoute juste deux pierres à l'édifice :
--> une page gscan2pdf dans la documentation Ubuntu francophone, avec un lien vers cette page dans la documentation sur tesseract.

Très bien ces deux pages ! Merci pour les liens...

Sorbus a écrit :

--> une remarque à propos de unpaper. Je ne sais pas si le traitement unpaper a pour effet de "repasser lâ€™image au format .tif" des images .jpg, .png ou autre comme dit dans l'article de Linux on the root. Je n'ai hélas pas pu tester ça
Mais il est certain que l'objet de unpaper est de redresser des pages, d'enlever des parasites (des marges noires par exemple)... ce qui doit avoir une grande importance avant un traitement ROC/ocr. Notamment quand on scanne des pages de bouquins (difficile d'être bien droit... et sans marges noires). Hélas, je n'ai pas pu tester non plus... mais cette piste est à creuser... en cherchant les bonnes options.

J'avais consulté, à l'époque oà¹ nous faisons nos tests la doc de UNPAPER... J'étais le seul dans l'équipe à pouvoir passer une image en .png à la ROC. Et dzef avait eu la bonne idée de partir d'une image .png, d'essuyer un échec puis de passer le traitement UNPAPER... et la ROC était passée. Conclusion : dans les options d'unpaper sous gscan2pdf, il doit y avoir une config qui le permet. Regarde les exemples sur le site d'unpaper : convert image --> tif. Rectification : ce doit être une option d'imagemagik.... Je viens de lire la doc User d'unpaper et le .png n'est pas un format supporté. Autrement dit, il doit y avoir quelque part un lien entre les deux...

Sorbus a écrit :

Enfin, une petite remarque : gscan2pdf ne semble pas disposer d'une option de prévisualisation permettant de sélectionner une zone à scanner (Xsane et Kooka le permettent). Pour réaliser de l'OCR, éliminer d'entrée des zones "parasites" par une sélection du texte est une excellente chose. Une idée à transmettre au développeur de gscan2pdf ?

C'est effectivement un vrai manque... Si l'on pouvait se passer d'avoir recours à xsane ou kooka ce serait plus pratique. On va augmenter son cahier des charges....

Sorbus a écrit :

P.S. : si, je peux toujours utiliser gscan2pdf comme interface graphique de tesseract pour faire de la ROC (je pourrai donc réaliser d'autres tests avec unpaper)... mais par "Fichier --> Importer" des fichiers scannés avec Xsane. C'est simplement la relation gscan2pdf --> scanneur qui est boguée.

C'est exactement comme cela que je l'utilise... Kooka fait aussi du bon boulot pour l'acquisition.

@+

XoF

Dernière modification par zarer (Le 20/01/2008, à 13:31)

Sorbus · Le 20/01/2008, à 17:17

On avance...
Une question bête que je me pose : est-ce qu'il n'y a pas une certaine probabilité pour que Xsane et Kooka intègrent sans tarder le moteur de ROC tesseract, en plus de gocr et ocrad qu'ils ont déjà ? Vu les progrès de tesseract, que les dev. de Xsane et Kooka ne doivent pas ignorer... ça se pourrait, non ?

zarer · Le 20/01/2008, à 18:15

Salut Sorbus,

Sorbus a écrit :

On avance...
Une question bête que je me pose : est-ce qu'il n'y a pas une certaine probabilité pour que Xsane et Kooka intègrent sans tarder le moteur de ROC tesseract, en plus de gocr et ocrad qu'ils ont déjà ? Vu les progrès de tesseract, que les dev. de Xsane et Kooka ne doivent pas ignorer... ça se pourrait, non ?

Ce sera une bonne chose, ça donnerait plus de poids encore à ces deux projets.

Par contre, regarde, je viens de te répondre... J'ai refait toute l'installation après avoir tout supprimé. Et j'obtiens quelque chose de surprenant. Tout fonctionne mais en créant deux fois des liens symboliques.

@+

XoF

Leonux · Le 20/01/2008, à 19:44

Une question bête que je me pose : est-ce qu'il n'y a pas une certaine probabilité pour que Xsane et Kooka intègrent sans tarder le moteur de ROC tesseract, en plus de gocr et ocrad qu'ils ont déjà ? Vu les progrès de tesseract, que les dev. de Xsane et Kooka ne doivent pas ignorer... ça se pourrait, non ?

Ce n'est pas une question bête du tout, ce serait même une bonne chose ...
L'avantage, sous GNU Linux (c'est vrai pour les autres systèmes libres), c'est que l'utilisateur peut tester, choisir et participer à l'évolution du ou des logiciels libres ..
Que demander de mieux ?

Dom · Le 21/01/2008, à 20:02

Merci mille fois pour les contributions précédentes.
J'ai mis en place l'OCR en suivi le tutoriel de linux on the root (tesseract et gscan2pdf) sur une 7.10.
Je pense avoir résolu le problème de la langue.
Lorsque je lance une reconnaissance en ligne de commande, simplement pour tester tesseract, voilà ce que j'obtiens :

dom@ordisup:~$ tesseract /home/dom/Documents/Images/Iscan/085.tif essai -l fra
Tesseract Open Source OCR Engine
Image has 1 bit  per pixel and size (1392,684)
Resolution=400
Discarding 52 bits on line 683
Discarding 1351 bits on line 682
1043 pixels short on line 681, unknown code=1100
Discarding 638 bits on line 681
1257 pixels short on line 680, unknown code=c00
Discarding 158 bits on line 680
984 pixels short on line 679, unknown code=4700
Discarding 2250 bits on line 679
Discarding 227 bits on line 678
809 pixels short on line 677, unknown code=db00
Discarding 638 bits on line 677
1339 pixels short on line 676, unknown code=4500
Discarding 42 bits on line 676
1332 pixels short on line 675, unknown code=8600
Discarding 24 bits on line 675
957 pixels short on line 674, unknown code=1500
Discarding 1038 bits on line 674
1370 pixels short on line 673, unknown code=8200
Discarding 914 bits on line 673
Discarding 3240 bits on line 672
Discarding 3597 bits on line 671
Discarding 2829 bits on line 670
392 pixels short on line 669, unknown code=a200
Discarding 45 bits on line 669
Discarding 305 bits on line 668
Discarding 1140 bits on line 667
530 pixels short on line 666, unknown code=2100
Discarding 4441 bits on line 666
1364 pixels short on line 665, unknown code=280
Discarding 405 bits on line 665
Discarding 148 bits on line 664
Discarding 735 bits on line 663
1261 pixels short on line 662, unknown code=28c6
Discarding 1335 bits on line 662
Discarding 706 bits on line 661
Discarding 2113 bits on line 660
Discarding 1343 bits on line 659
Discarding 674 bits on line 658
Discarding 2733 bits on line 657
Discarding 1859 bits on line 656
727 pixels short on line 655, unknown code=7a7b
Discarding 1233 bits on line 655
Discarding 4050 bits on line 654
Discarding 238 bits on line 653
1156 pixels short on line 652, unknown code=3380
Discarding 2752 bits on line 652
1369 pixels short on line 651, unknown code=3109
Discarding 156 bits on line 651
Discarding 226 bits on line 650
Discarding 615 bits on line 649
Discarding 993 bits on line 648
Discarding 3134 bits on line 647
Discarding 1572 bits on line 646
227 pixels short on line 645, unknown code=9400
Discarding 249 bits on line 645
Discarding 402 bits on line 644
Discarding 403 bits on line 643
Discarding 392 bits on line 642
Discarding 432 bits on line 641
Discarding 1470 bits on line 640
Discarding 400 bits on line 639
Discarding 588 bits on line 638
Discarding 306 bits on line 637
Discarding 837 bits on line 636
Discarding 275 bits on line 635
Discarding 23 bits on line 634
Discarding 173 bits on line 633
Discarding 2075 bits on line 632
Discarding 486 bits on line 631
Discarding 2784 bits on line 630
724 pixels short on line 629, unknown code=6600
Discarding 5345 bits on line 629
Discarding 10334 bits on line 628
1111 pixels short on line 627, unknown code=b800
1069 pixels short on line 626, unknown code=f000
155 pixels short on line 625, unknown code=b800
1069 pixels short on line 624, unknown code=f000
155 pixels short on line 623, unknown code=b800
1069 pixels short on line 622, unknown code=f000
751 pixels short on line 621, unknown code=e000
Discarding 135 bits on line 620
Discarding 44 bits on line 619
1140 pixels short on line 618, unknown code=5f00
Discarding 564 bits on line 618
1179 pixels short on line 617, unknown code=7efb
Discarding 285 bits on line 617
Discarding 1192 bits on line 616
Discarding 84 bits on line 615
1294 pixels short on line 614, unknown code=b97a
Discarding 1343 bits on line 614
1376 pixels short on line 613, unknown code=ed00
Discarding 6719 bits on line 613
Discarding 3492 bits on line 612
Discarding 3312 bits on line 611
Discarding 2228 bits on line 610
Discarding 324 bits on line 609

Rien ne sort de l'OCR, la procédure se bloque.
Merci de vos lumières.

Dernière modification par Dom (Le 21/01/2008, à 20:21)

Sorbus · Le 21/01/2008, à 20:29

@Leonux
J'espérais bien que la question n'était pas si bête
Je disais ça simplement pour que nous soyons prêts à capter toute éventuelle info en ce sens, car ce serait intéressant; et il faudrait aussità´t tester et faire connaà®tre si ça devait venir...

@Dom
Je n'ai jamais euce type de message. As-tu essayé avec d'autres images tiff, obtenues par d'autres moyens ? Xsane, Kooka ? Essaye aussi avec une résolution 300 dpi.

Dernière modification par Sorbus (Le 21/01/2008, à 20:33)

ferker · Le 24/01/2008, à 03:26

Merci Sorbus, zarer, b52, Leonux and co...

à€ noter que sous KDE, ça marche presque au poil en faisant comme suit : :

- installer gscan2pdf par adept ;

- télécharger le paquet de b52 : http://download.tuxfamily.org/xcfaudio/ … 1_i386.deb ;

- l'installer par un clic droit avec gedbi et pas avec ark qui veut pas !

- vérifier d'avoir les paquets unpaper, tous les libtiff, djvulibre-bin, ghostscript ;

-faire pour l'instant les liens symboliques comme ceci :

-* sudo ln -s /usr/share/tessdata /usr/local/share
-* sudo mkdir /usr/share/tesseract-ocr
-* sudo ln -s /usr/share/tessdata /usr/share/tesseract-ocr

- et en scannant avec gscan, cocher les cases "scanner avec unpaper" et "OCR", en choisissant Tesseract et la langue dans "Options de la page", sans oublier de choisir la résolution (au moins 300 ddpi) dans "Options des scans".

Encore merci. Si, si:cool:

PS : Effectivement, ce qui manque avec gscan, c'est la prévisualisation. Mais les résultats sont là . à€ noter que je n'arrive pas à configuer Kooka, sous KDE ! (Si vous n'avez rien à faire, jetez un oeil sur ce fil : http://forum.ubuntu-fr.org/viewtopic.php?id=185189

Dernière modification par ferker (Le 24/01/2008, à 19:23)

freebunter · Le 24/01/2008, à 16:58

Bonjour,

j'ai installé Tessreract et gscan2pdf. Mais lorsque je veux scanner, un message d'erreur apparait "Message inconnu : scanimage: setting of option --br-y failed (Invalid argument)".
Je pense avoir bien fait l'installation...(Linux on the root)

wget http://download.tuxfamily.org/xcfaudio/tesseract/tesseract_2.02-1_i386.deb
sudo dpkg --unpack tesseract_2.02-1_i386.deb
sudo apt-get install -f
wget http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.19_all.deb
sudo dpkg --unpack gscan2pdf_0.9.19_all.deb
sudo apt-get install -f

Le probleme (je ne sais pas si c'est en rapport) c'est que maintenant je ne peux plus scanner avec Xsane. Le scanner à l'air de travailler, aucun message d'erreur n'apparait mais l'image n'apparait pas dans la visionneuse, il y a juste un trait verticale au milieu.

J'ai Ubuntu 7.10
Xsane 0.991
une imprimante scanner HPdeskjet F380

merci de votre aide

Dernière modification par freebunter (Le 24/01/2008, à 16:58)

ferker · Le 24/01/2008, à 19:15

M'est avis que t'as intérêt à désinstaller tessract et gscan, en purgeant, et réinstaller. As-tu toutes les librairies, ghostscript qui remplace gs-common ?

Le paquet build-essential est-il nécessaire avec ta façon de faire ? Installer le paquet proposé par b52 avec gededi n'est-il pas suffisant pour quelqu'un qui n'est pas geek ?

Dernière modification par ferker (Le 24/01/2008, à 19:28)

Sorbus · Le 24/01/2008, à 20:52

@ferker

Merci pour ce retour (de ton avant-dernier message).
Etonnant que Kooka ne trouve pas ton scanneur...
L'avantage de Kooka ou Xsane reste la prévisualisation... et sur Kubuntu, ce serait plus sympa de pouvoir faire tourner Kooka. Mais je n'ai hélas aucune piste.

@ tous
Je signale aussi que la version 0.9.20 de gscan2pdf est disponible depuis le 19 janvier.
Les changements sont précisés ici, mais je n'ai pas regardé de près.

wget http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.20_all.deb
sudo dpkg --unpack gscan2pdf_0.9.20_all.deb
sudo apt-get install -f

@freebunter

Le probleme (je ne sais pas si c'est en rapport) c'est que maintenant je ne peux plus scanner avec Xsane.

Oui, c'est certainement en rapport. Quand un logiciel de scan "occupe" la liaison avec le scanneur, les autres logiciels ne peuvent pas avoir accès à celui-ci. On peu constater ça si on tente d'utiliser simultanément Kooka et Xsane ou gscan2pdf. J'ai moi aussi un petit problème de scan avec gscan2pdf... non résolu pour l'instant...

Dans l'attente, je m'en sers uniquement comme interface graphique pour tesseract, en important des fichiers TIFF réalisés avec Xsane.
Normalement, si tu redémarre ton ordi, tu devrais pouvoir réutiliser Xsane normalement. Il reste à comprendre d'oà¹ viennent les bugs qu'on a avec gscan2pdf pour scanner... variables peut-être selon les scanneurs...

Dernière modification par Sorbus (Le 25/01/2008, à 17:15)

freebunter · Le 24/01/2008, à 21:58

Et bien moi je ne comprends pas, j'ais désinstallé Tessreract et gscan2pdf et réinstaller, (j'avais bien les librairies ghostscript au passage). Mais toujours le même message d'erreur.
mon scanner ne marche tjrs pas même après reboot du système. Si quelqu'un peut m'aider ce serait sympa.
merci

zarer · Le 24/01/2008, à 22:04

Bonsoir freebunter,

freebunter a écrit :

Et bien moi je ne comprends pas, j'ais désinstallé Tessreract et gscan2pdf et réinstaller, (j'avais bien les librairies ghostscript au passage). Mais toujours le même message d'erreur.
mon scanner ne marche tjrs pas même après reboot du système. Si quelqu'un peut m'aider ce serait sympa.
merci

Et quand tu désinstalles tout, ça marche avec Xsane ou kooka ?

Lance gscan2pdf depuis un terminal, en tapant : gscan2pdf

Et colle-nous le résulat.

@+

freebunter · Le 24/01/2008, à 23:17

Bonsoir,
quand je désinstalle ça marche avec xsane (enfin normalement parce que là ça marche plus du tout)

sinon quand je lance gscan2pdf :

sylvain@sylvain-laptop:~$ gscan2pdf
:Legal US:
:Letter US:
:A4:
Message inconnu : scanimage: setting of option --br-y failed (Invalid argument)

Sorbus · Le 25/01/2008, à 00:15

Si tu comprends l'anglais, il y a peut-être une piste ici.
moshuptrail a presque le même message d'erreur que toi. Blankman a le même.
Jeffrey Ratcliffe, qui leur répond, est le développeur de gscan2pdf.

Voir aussi à partir du post 506 dans ce lien.

En regardant de plus près les changements apportés par la version 0.9.20
--> je me demande si certains éléments ne correspondraient pas à la résolution de ton problème :

+ manual paper size
+ fixed bug trying to scan large paper size than scanner allows
+ warning message when paper sizes too big for scanner
mauvaise traduction en ligne :
+ La taille manuelle de papier
+ fixe le bogue essayant de parcourir la grande taille de papier que le scanner permet
+ l'avertissement du message quand des tailles de papier trop grandes pour le scanner

Essaye de réinstaller avec la version gscan2pdf 0.9.20

Dernière modification par Sorbus (Le 25/01/2008, à 00:37)

Sorbus · Le 25/01/2008, à 00:32

Et dans les nouveautés de la version 0.9.20, il y a aussi ceci :

+ improve tesseract language file search
+ améliore la recherche de fichier de langue tesseract

Il faudrait voir si ça ne résoud pas une part de nos questions sur l'emplacement des fichiers de langues et la nécessité des liens symboliques.

Sur ce second point, je confirme, au moins dans le cas d'une installation de tesseract selon le tuto de la doc Ubuntu francophone, il n'y a plus besoin du lien symbolique. Je l'ai supprimé. gscan2pdf v.0.9.20 trouve les fichiers de langues sans problème dans /usr/local/share/tessdata.

Il reste à voir ce que ça donne dans le cas d'une installation avec le paquet de b52.

Dernière modification par Sorbus (Le 25/01/2008, à 00:56)

zarer · Le 25/01/2008, à 00:53

Salut Sorbus !

Sorbus a écrit :

Et dans les nouveautés de la version 0.9.20, il y a aussi ceci :
+ improve tesseract language file search
+ améliore la recherche de fichier de langue tesseract
Il faudrait voir si ça ne résoud pas une part de nos questions sur l'emplacement des fichiers de langues et la nécessité des liens symboliques.

C'est possible... je ne suis pas dispo pour les tests de suite. Je ferai ça dans les jours qui viennent de mon cà´té.

@+

Sorbus · Le 25/01/2008, à 00:58

J'ai édité mon message précédent : résolu dans le cas de mon installation. A voir pour les installations faites avec le paquet de b52.

J'ajoute que mon problème de scan non-stop est à peu près résolu; si l'option "tous" est cochée dans l'onglet "Options de la page", le "non-stop" continue, mais il n'y a plus de message d'erreur et le scanneur n'est plus bloqué après l'arrêt de gscan2pdf. Il suffit donc de cocher la case "page" au lieu de "tous"... et cela scanne une seule page... avec donc à nouveau la possibilité de reconnaissance optique de caractères immédiate sur cette page.

L'outil Threshold, renommé "Seuil" en français, ne provoque plus de bug chez moi. Il ne reste plus qu'à connaà®tre le mode d'emploi de cet outil... de même celui de unpaper.

Dernière modification par Sorbus (Le 25/01/2008, à 08:35)

freebunter · Le 25/01/2008, à 09:39

Salut,

alors voilà j'ai installé la new version et ça marche par contre je n'ai pas encore installé le français. Le reconnaissance de caractère est impecc sauf quelques coquilles et qu'il ne reconnait pas les caractères gras soulignés (il les zappe tout simplement).

En résumé, je ne sais pas exacctement ce qu'il a fait ce Jeffrey Ratcliffe mais ça marche

@+

edit: Français installé

Dernière modification par freebunter (Le 25/01/2008, à 10:10)

Dom · Le 26/01/2008, à 11:43

@ sorbus
Merci de ta réponse. Ta proposition n'a pas changé la donne. J'ai refait alors une installation et depuis ça fonctionne. ???

Pour contribuer à l'évolution de l'outil, voilà ce que j'ai remarqué :
- Lorsque je lance tesseract en ligne de commande (avec tesseract chemin/de/votre/image.tif nom_du_fichier_de_sortie_sans_extension -l fra) je n'obtiens rien, alors qu'en mode graphique, avec gscan2pdf/tesseract, ça marche.
- Mon scanner (HP Photosmart 2575 Tout-en-un) ne dialogue pas avec gscan2pdf ; il y a à chaque fois un message d'erreur. Je scanne, j'enregistre et importe sous gscan2pdf.
- Le format .tiff, généré automatiquement par mon scanner, n'est pas accepté par l'outil ; je dois renommer les fichiers au format . tif avant de les importer dans gscan2pdf et de lancer la roc.

Dernière modification par Dom (Le 26/01/2008, à 11:44)

Sorbus · Le 26/01/2008, à 13:03

@Dom

J'ai refait alors une installation et depuis ça fonctionne

Quelle version as-tu réinstallé ?
(question juste pour savoir quelle version on a pour comparer nos tests).

- Lorsque je lance tesseract en ligne de commande (avec tesseract chemin/de/votre/image.tif nom_du_fichier_de_sortie_sans_extension -l fra) je n'obtiens rien, alors qu'en mode graphique, avec gscan2pdf/tesseract, ça marche.

Si ça marche avec gscan2pdf, ça doit marcher aussi en ligne de commande. Mais par défaut, le fichier de sortie n'est pas sur le bureau mais dans /home/ton_identité. As-tu vérifié que tu ne le trouves pas là ? (en plus, au départ, il n'est pas placé par ordre alphabétique, mais en fin de liste).
Si tu veux le récupérer sur ton bureau, il faut faire :

tesseract chemin/de/votre/image.tif /home/ton_identité/Desktop/nom_du_fichier_de_sortie_sans_extension -l fra

- Mon scanner (HP Photosmart 2575 Tout-en-un) ne dialogue pas avec gscan2pdf ; il y a à chaque fois un message d'erreur. Je scanne, j'enregistre et importe sous gscan2pdf.

Pour le scanneur, je ne sais pas... (gscan2pdf 0.9.19 ou 0.9.20 ?)
Sinon, tu utilises quel logiciel pour scanner : Xsane ? Kooka ?

- Le format .tiff, généré automatiquement par mon scanner, n'est pas accepté par l'outil ; je dois renommer les fichiers au format . tif avant de les importer dans gscan2pdf et de lancer la roc.

Il faudrait donc préciser le logiciel utilisé pour scanner. Je viens de refaire l'essai avec Xsane, qui sort des fichiers au format .tiff. gscan2pdf importe bien ces fichiers et effectue sans problème la ROC dessus, sans qu'il soit nécessaire de les renommer en .tif au préalable.

De mon cà´té, j'ai fait un premier test de unpaper sur un texte de 7 lignes scanné penché avec Xsane au format .tiff, importé avec gscan2pdf :
--> première ROC réalisée sur le texte penché : le résultat est correct.
--> traitement du texte par unpaper (en cochant seulement "rotation : bas" et "bord : bas")... le texte est bien redressé à l'écran. La ROC donne ensuite un résultat légèrement différent de celle réalisée sur le texte penché... mais ni plus ni moins bon.

Dernière modification par Sorbus (Le 26/01/2008, à 13:13)

Sorbus · Le 26/01/2008, à 23:30

A propos de Xsane et de Kooka...

J'ai fait un tour sur les sites de ces deux logiciels.
Il semblerait que Kooka soit en panne de développement... Il y a donc peu d'espoir pour qu'il intègre tesseract à court ou moyen terme.

Pour Xsane, le développement semble se poursuivre activement (la dernière version sous Gutsy est la 0.991... la plus récente est la 0.995). Mais il n'est pas fait mention de tesseract dans les projets... Donc, l'éventuelle intégration de tesseract dans Xsane, ce n'est pas non plus pour demain.

Dernière modification par Sorbus (Le 28/01/2008, à 10:18)

hector · Le 26/01/2008, à 23:55

zarer a écrit :

Il travaille actuellement sur l'apprentissage du "vieux latin" avec Tesseract... Il fera un tour dans le secteur quand il aura réglé ses problèmes d'ADSL...
@+

Bonsoir tout le monde:
je suis avec intérêt l'évolution de ce fil.
Juste par curiosité: pourquoi le vieux latin?
Merci!

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#101 Le 19/01/2008, à 18:52

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#102 Le 20/01/2008, à 03:53

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#103 Le 20/01/2008, à 10:20

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#104 Le 20/01/2008, à 12:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#105 Le 20/01/2008, à 17:17

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#106 Le 20/01/2008, à 18:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#107 Le 20/01/2008, à 19:44

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#108 Le 21/01/2008, à 20:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#109 Le 21/01/2008, à 20:29

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#110 Le 24/01/2008, à 03:26

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#111 Le 24/01/2008, à 16:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#112 Le 24/01/2008, à 19:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#113 Le 24/01/2008, à 20:52

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#114 Le 24/01/2008, à 21:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#115 Le 24/01/2008, à 22:04

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#116 Le 24/01/2008, à 23:17

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#117 Le 25/01/2008, à 00:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#118 Le 25/01/2008, à 00:32

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#119 Le 25/01/2008, à 00:53

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#120 Le 25/01/2008, à 00:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#121 Le 25/01/2008, à 09:39

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#122 Le 26/01/2008, à 11:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#123 Le 26/01/2008, à 13:03

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#124 Le 26/01/2008, à 23:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#125 Le 26/01/2008, à 23:55

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums