Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

lovasoa · Le 24/07/2010, à 09:13

J'ai essayé cuneiform (simplement en l'apt-getant, et en le compilant depuis les sources de launchpad). Résultats mitigés : il se segfault une fois sur deux, mais quand il marche, il donne de bien meilleurs résultats que tesseract (qui était déjà pas mal).

Le problème de ce soft est qu'il a été créé pour Windows. Mais comme il était libre, il a été porté sous Linux (c'est là qu'on aime le Logiciel libre ). Mais le portage n'est pas complet (on n'a pas réussi à intégrer la reconnaissance de tableaux, qui est fonctionnelle sous Windows), et j'ai ces problèmes de segfault (apparemment pas partagés par tout le monde, puisque le site que tu citais l'utilise en production)...

compte supprimé · Le 24/07/2010, à 11:45

Tu as une interface graphique vieillote pour cuneiform: YAGF. par contre, cuneiform donne un résultat pourri chez moi. Pour l'instant, tesseract est ce qui marche le mieux.

Bushman02 · Le 26/07/2010, à 10:40

Retour à ce fil après quelques mois. Une nouveauté dans ce domaine est toujours intéressante. J'ai donc effectué quelques tests rapides.
Chez moi (L.L. 64 bits), Cuneiform fonctionne de deux façons différentes :
a/ sur le bureau, avec ce script :

#!/bin/bash
        
        cd ~/Bureau
        cuneiform fr *.jpg ;
        oowriter ~/Bureau/cuneiform-out.txt ;

il donne des résultats peu satisfaisants puisqu'il ne reconnaît pas les accents. Peut-être faut-il lui donner un autre argument que "fr" ?

b/ avec Yagf, les résultats sont acceptables et s'améliorent avec le contraste du document reconnu.
Preuves : -- un de mes documents test (photo d'une page à une coloonne et sous-exposée donc très grise) n'est pas reconnu alors que Tesseract le déchiffre sans problème.
-- le même document, dont on accentue le contraste pour se rapprocher du noir et du blanc "parfaits" est mieux reconnu que s'il tend vers le gris.

c/ dans les deux cas (et avec les réserves évoquées ci-dessus) les pages à deux colonnes sont reconnues dans l'ordre, ce que ne fait pas Tesseract.

d/ j'oubliais : contrairement à Teseract, Cuneiform ne conserve pas la longueur des lignes des documents reconnus... Mais ce n'est pas forcément un inconvénient.

Conclusion : Cuneiform est à peu près équivalent à Ocropus et peut éventuellement le remplacer sous L.L. 64 bits où je n'arrive pas à le faire fonctionner.
À suivre...

Dernière modification par Bushman02 (Le 26/07/2010, à 10:48)

luc765 · Le 10/08/2010, à 22:27

Bonjour,

Le paramètre langue pour cuneiforme est "-l fra" et pour obtenir un résultat qui tient compte du format du texte il faut mettre la commande suivante : cuneiforme -l fra - f rtf . Par défaut et sans spécification de la langue c'est l'anglais qui est choisi, c'est normal que tu n'aies pas eu les accents.

Je pense ce logiciel prometteur mais pour l'instant tesseract pour ma part donne de meilleurs résultats mais hélas sans respecter la mise en page.

Lucien

http://users.skynet.be/linux-rixensart/app21_graphisme.html

Bushman02 · Le 11/08/2010, à 12:22

Merci de la précision, luc765. J'ai maintenant les accents !

luc765 · Le 11/08/2010, à 15:19

1) J'ai essayé Tesseract-gui 2.5 de B52 Tout est nickel exception faite que je n'ai aucun document ouvert dans la page de droite ? y a t'il une astuce qui m'échappe ??
Il existe une version 2.7 de ce gui mais qui n'est pas compatible b52 ? Est ce que quelqu'un sait ou et comment demander ce portage à B52 ??

http://sourceforge.net/projects/tesseract-gui/

2) Pour info voici le site qui donne toutes les infos sur cuneiform. C'est en allemant mais compréhensible dans les grandes lignes :
http://wiki.ubuntuusers.de/Cuneiform-Linux

Lucien

Bushman02 · Le 11/08/2010, à 19:39

-- Avec Tesseract-gui, tu dois sélectionner un fichier image (texte déjà scanné). Pour cela, tu cliques sur "Sélection fichiers images" dans la colonne de gauche, tu sélectionnes un fichier, et le nom de ton fichier apparaît... dans "Dossier de destination", juste au-dessous. Il ne te reste qu'à cliquer sur le nom du fichier apparu et son image se forme alors dans la colonne de droite. Tu n'as plus qu'à faire "Exécuter". (Plus long à expliquer qu'à exécuter !)
J'espère que j'ai répondu à ta question.
-- J'utilise la version 2.7 (paquet deb.) car, en passant à Lucid Lynx, je n'ai pas utilisé le Tesseract de B52.
-- Habituellement, c'est Sorbus qui fait la demande à B52, je ne peux pas t'aider de ce côté-là. Peut-être Sorbus repassera-t-il par ici sous peu...
-- Merci pour le lien vers le site de Cuneiform. Je ne lis pas l'Allemand, mais les croquis semblent assez explicites.
Bonne rconnaissance !

Dernière modification par Bushman02 (Le 11/08/2010, à 19:40)

luc765 · Le 12/08/2010, à 20:26

Bonsoir Bushman02,

1) Merci pour l'info "tu sélectionnes un fichier, et le nom de ton fichier apparaît....." je n'y avais pas pensé....

2) Je suis aussi sous ubuntu 10.04. Quels sont les paquets installés si tu n'utilises pas B52 et as-tu les mêmes facilités ? Je pense tesseract-fra, tesseract-ocr et tesseract-gui mais unpaper ? et autres ?? Y a t'il des restrictions si tu n'utilises pas B52 ??

3) J'ai ajouté sur le site de Rixensart la gestion des 3 ou 4 boutons de commande d'un scanner :
http://users.skynet.be/linux-rixensart/app21_graphisme.html#scanbuttond
et l'interface tesseract-gui :
http://users.skynet.be/linux-rixensart/app21_graphisme.html#tesseract-gui

Lucien

Bushman02 · Le 12/08/2010, à 23:02

1) Je me suis probablement mal exprimé : je voulais dire que le nom du fichier apparaît dans la fenêtre où on ne l'attend pas ! Peu importe...
2) La multiplicité des langues mise à part, je ne me souviens pas très bien de la différence entre une installation "classique" (paquets de Synaptic) et une installation par les paquets de B52. Il faut dire que, depuis plus d'un an, mes besoins sont assez limités : en général une page d'une colonne. J'utilise donc surtout Xsane avec Xsane2tess ou un petit script fabriqué par Astre il y a quelques mois (cf. ci-dessus, post n° 373)... ou bien Tesseract-gui.
Je pense qu'il doit y avoir des précisions sur les paquets de B52 dans la doc, ainsi que dans les posts de ce fil, posts assez nombreux il est vrai.

milhouse · Le 26/10/2010, à 18:27

Bonjour à tous,

voilà, je ne sais pas trop comment présenter / expliquer mon problème.

J'ai testé le moteur d'OCR Tesseract, et je suis épaté par la simplicité d'installation et l'efficacité du truc.
(merci Google d'avoir dépoussiéré ce truc

Mais, car il y a un mais, j'aimerais intégrer dans un PDF l'image et le contenu textuel de façon à avoir un PDF dans lequel je peux faire des recherches et accessoirement qui peut être exploité par des outils d'indexation.

Je pensais que Gscan2pdf le faisait mais je n'ai pas l'impression que ce soit possible.

Merci d'avance pour les infos que vous pourrez m'apporter.

Cdlt
milhouse

luron · Le 27/10/2010, à 02:52

milhouse a écrit :

Je pensais que Gscan2pdf le faisait mais je n'ai pas l'impression que ce soit possible.

Selon un message du développeur, ça devrait être intégré prochainement ou déjà l'être. Toujours selon le développeur, Tesseract 2.04 ou 3.00 devrait avoir ce genre de fonctionnalités, mais je ne sais pas ce qui en est.

Sinon voici d'autres liens:

- pdfocr
- pdfsandwich

cyberic · Le 02/11/2010, à 16:52

Bonjour, je voudrai savoir si pour l'utilisation d'Xsane ce mode d'emploi est toujours d'actualité..parce que je viens de le faire et le résultat n'est pas très bon..

dans XSane : Applications → Images → Scanneur d'images XSane ;
dans la zone à droite de la cible, sélectionner "Enregistrer" ;
dans "Type", sélectionner "TEXT" ;
dans le sélecteur couleur ou N/B, sélectionner "Gris" ou "Noir et Blanc" (à tester selon le document à scanner).
et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 Arial, Times New Roman et Courier 10 Pitch donne les meilleurs résultats en 300 ppi).

dans la fenêtre "Aperçu", cliquer sur "Acquisition de l'aperçu" ;
recadrer sur la zone de texte à scanner ;

XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans "home/votre_identité" (selon les versions de Xsane). Il est possible de choisir le dossier d'enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'icône "disquette". On peut aussi nommer le fichier. Par exemple en remplaçant "out.txt" des captures d'écran ci-dessus par "/home/votre_identité/essai_ocr_1.txt" ;
cliquer sur "numériser" et attendre le "transfert de l'image" ;

copier-coller le contenu du fichier texte dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ;
terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.

Bushman02 · Le 02/11/2010, à 18:26

Il me semble qu'il manque trois points à ce mode d'emploi :
a/ l'installation de tesseract-ocr par synaptic (ne pas oublier d'ajouter tesseract-ocr-fra pour le français !).
b/ l'installation du script xsane2tess, détaillé dans la doc, à la page suivante : http://doc.ubuntu-fr.org/xsane2tess.
c/ le paramétrage de xsane (Préférences/configuration/OCR) selon les conseils donnés à la fin de le même page de doc.
Ensuite, effectivement, tout se passe comme tu l'indiques avec un réglage en "gris", une résolution de 300 dpi et un choix de sortie en mode .txt.

Autre solution si on dispose d'une image déjà scannée (voir ci-dessus posts 373 et 374 p 15) : il suffit d'installer tesseract, de recopier le script et de l'utiliser, éventuellement avec un lanceur.

N.B. : tout cela ne fonctionne qu'avec des textes disposés sur une seule colonne.

cyberic · Le 02/11/2010, à 19:29

merci beaucoup Bushman02

1) Je suppose que le script commence sous la ligne de dièzes..c'est a dire ici: " xsane2tess is a TesseractOCR wrapper to be able to use tesseract with xsane"

2) je dois mettre mon identité dans une ligne de commande, est-ce que c'est ce que je vois quand j'ouvre le terminal? "cyberic@Dell-Studio-XPS-1340:~$ "

Bushman02 · Le 03/11/2010, à 00:02

Rappel rapide (si je dis des choses que tu sais, saute-les et va à ce qui t'es utile). Relis éventuellement de près la page dont je t'ai signalé le lien.
-- Pour ce qui est du script il commence au-dessus des dièses, précisément dès le premier dièse, à partir de : " # bin/bash".
-- Une fois ce script copié (en entier) dans gedit, tu l'enregistres et tu le rend exécutable avant de le mettre (en root) dans usr/bin. (Il n'y a pas besoin de ligne de commande).
-- Ensuite tu paramètres xsane2tess comme c'est précisé au bas de la page de la doc... et tu scannes.

cyberic · Le 03/11/2010, à 10:59

avant de le mettre (en root) dans usr/bin

c'est ça que je ne sais pas faire..

Bushman02 · Le 03/11/2010, à 17:08

Pour cela, il te faut soit utiliser une ligne de commande, soit avoir installé, à partir de synaptic, une extension de nautilus qui s'appelle très exactement "nautilus-gksu". Je te conseille de l'installer. Quand c'est fait, cette extension apparaît dans le déroulant qui s'affiche au clic droit de ta souris sur un fichier ou un dossier. Elle prend la forme d'une ligne : "Ouvrir en tant qu'administrateur".
--Tu sélectionnes donc le dossier "bin" après avoir ouvert "usr" dans ton "système de fichiers",
-- tu fais un clic droit, la commande "Ouvrir en tant qu'administrtateur" apparaît,
-- tu cliques, ton mot de passe t'es demandé, tu le donnes et ça s'ouvre : tu es dans /usr/bin en tant qu'administrateur du système, c.-à-d. en root.
Tu n'as plus, alors, qu'à déposer "xsane2tess" dans "bin" (en ayant pris soin de rendre "xsane2tess" exécutable.)
Ensuite tu refermes "bin" sans rien changer d'autre, surtout : le moindre changement non contrôlé dans un fichier ou un dossier ouvert en root peut provoquer des dégâts, des plantages, etc.
Tout cela est beaucoup plus rapide à faire qu'à expliquer !
N'hésite pas à redemander des explications...

Dernière modification par Bushman02 (Le 03/11/2010, à 17:10)

cyberic · Le 03/11/2010, à 19:34

Bonsoir Bushman02,

bon, je viens de faire ça,

/ l'installation de tesseract-ocr par synaptic (ne pas oublier d'ajouter tesseract-ocr-fra pour le français !).
une extension de nautilus qui s'appelle très exactement "nautilus-gksu".

pour Nautilus j'ai vérifié "Ouvrir en tant qu'administrateur". apparaît bien.

Pour éviter une boulette fatale, qu'entends t'on par "votre identité" ?

(sudo cp /home/votre_identité/Desktop/xsane2tess /usr/bin
ou sudo cp /home/votre_identité/Bureau/xsane2tess /usr/bin)

et ceci "déposer "xsane2tess" dans "bin" .. comment fait on?

merci

Dernière modification par cyberic (Le 03/11/2010, à 19:36)

Bushman02 · Le 04/11/2010, à 08:56

Pour ce qui est de ta dernière question, j'y ai répondu dans mon post précédent (les 3 lignes commençant par "--" et les deux qui suivent). Maintenant que tu as installé nautilus gksu, c'est plus facile.

Pour la dernière partie de ta demande tu choisis une ligne ou l'autre selon que, dans ton répertoire personnel (/home), tu as un sous -répertoire qui est nommé "Desktop" ou "Bureau"
Quant à "votre identité" : c'est ton identifiant, celui que tu as donné au moment où tu as installé Ubuntu.
Exemple : si, d'une part, je m'appelle Armand-Ernest Dupont et que j'aie choisi "aed" comme identifiant ; si, d'autre part, dans mon /home, j'ai un sous-répertoire "Bureau", j'aurai à modifier ainsi la deuxième ligne que tu proposes :

sudo cp /home/aed/Bureau/xsane2tess /usr/bin

Dernière modification par Bushman02 (Le 04/11/2010, à 08:57)

cyberic · Le 07/11/2010, à 17:47

Merci pour tes explication Bushman02 ..je vais auparavant tester l'OCR en ligne.

LLouis · Le 16/02/2011, à 23:02

Bonsoir,

J'utilisais sans problème particulier XSane avec xsane2tess sous ubuntu 10.04.
Je viens d'installer sur une nouvelle machine neuve (samsung 4530) ubuntu 10.10 et là l'ocr ne fonctionne pas avec XSane (0.997).
Le fichier txt obtenu est vide. J'ai vérifié que la configuration est bien faite ("xsane2tess -l fra" pas d'espace, "L" en minuscule)

Et si j'utilise tesseract en ligne de commande après avoir scanné en TIFF,(en suivant les indication donné sur cette page http://doc.ubuntu-fr.org/tesseract-ocr), alors la reconnaissance a bien lieu et elle est correcte.

Voici le log qui manifestement signale des erreurs.

Tesseract Open Source OCR Engine
/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.tif: Not a TIFF or MDI file, bad magic number 13136 (0x3350).
tesseract:Error:Read of file failed:/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.tif
/usr/local/bin/xsane2tess: line 78:  2548 Erreur de segmentation  tesseract "$TIF_FILE" "$TXT_FILE" -l "$TES_LANG" 1>&2
cat: /home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.txt': Aucun fichier ou dossier de ce type

Merci pour les pistes

Bushman02 · Le 16/02/2011, à 23:47

Trop faible techniquement pour te donner des conseils à partir de ton log. Chez moi Xsane2tess fonctionne (Maverick 64bits) mais j'ai souvent eu des messages semblables par le passé.
Visiblement tesseract est convenablement installé puisque tu obtiens des résultats après un scan en .tiff
Visiblement tu as installé un répertoire tmp dans ton /home...
Une question qui pourra peut-être t'aider : as-tu installé imagemagick ou graphicsmagick ? Remplace le premier par le second le cas échéant (l'install de graphicsmagik entraîne la suppression d'imagemagick auquel il se substitue). Je crois avoir résolu un de mes problèmes de cette façon-là il y a quelque temps.
Désolé de ne pas pouvoir être plus précis.

Dernière modification par Bushman02 (Le 16/02/2011, à 23:47)

LLouis · Le 17/02/2011, à 14:06

Merci pour cette piste qui de fait se révèle bonne.
Après installation de graphicksmagick, le script xsane2tess s'exécute maintenant correctement et j'obtiens le fichier txt attendu.:)
Encore merci et bravo

Bushman02 · Le 17/02/2011, à 20:35

De rien, c'était avec plaisir. Je suis content que mes erreurs puissent, une fois corrigées, servir aux autres.

ZavezPasVu · Le 19/02/2011, à 13:42

Merci à Bushman02 pour m'avoir mis sur la piste alors que j'avais le même problème que LLouis.
Je précise que j'ai du installer le paquet graphicsmagick-imagemagick-compat pour retrouver un fonctionnement correct (graphicsmagick seul ne suffit pas).

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#426 Le 24/07/2010, à 09:13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#427 Le 24/07/2010, à 11:45

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#428 Le 26/07/2010, à 10:40

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#429 Le 10/08/2010, à 22:27

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#430 Le 11/08/2010, à 12:22

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#431 Le 11/08/2010, à 15:19

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#432 Le 11/08/2010, à 19:39

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#433 Le 12/08/2010, à 20:26

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#434 Le 12/08/2010, à 23:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#435 Le 26/10/2010, à 18:27

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#436 Le 27/10/2010, à 02:52

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#437 Le 02/11/2010, à 16:52

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#438 Le 02/11/2010, à 18:26

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#439 Le 02/11/2010, à 19:29

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#440 Le 03/11/2010, à 00:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#441 Le 03/11/2010, à 10:59

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#442 Le 03/11/2010, à 17:08

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#443 Le 03/11/2010, à 19:34

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#444 Le 04/11/2010, à 08:56

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#445 Le 07/11/2010, à 17:47

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#446 Le 16/02/2011, à 23:02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#447 Le 16/02/2011, à 23:47

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#448 Le 17/02/2011, à 14:06

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#449 Le 17/02/2011, à 20:35

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#450 Le 19/02/2011, à 13:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums