Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".
Test de l'ISO d'Ubuntu francophone : nous avons besoin de testeurs pour la version francophone d'Ubuntu 14.04. Liens et informations ici.

Attention, une faille de sécurité dans bash a récemment été rapportée, il est recommandé de mettre à jour son système (plus de détails) *** mise à jour 12/10/2014 ***

#426 Le 24/07/2010, à 08:13

lovasoa

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'ai essayé cuneiform (simplement en l'apt-getant, et en le compilant depuis les sources de launchpad). Résultats mitigés : il se segfault une fois sur deux, mais quand il marche, il donne de bien meilleurs résultats que tesseract (qui était déjà pas mal).

Le problème de ce soft est qu'il a été créé pour Windows. Mais comme il était libre, il a été porté sous Linux (c'est là qu'on aime le Logiciel libre smile ). Mais le portage n'est pas complet (on n'a pas réussi à intégrer la reconnaissance de tableaux, qui est fonctionnelle sous Windows), et j'ai ces problèmes de segfault (apparemment pas partagés par tout le monde, puisque le site que tu citais l'utilise en production)...


Pour les pauvres idiots, il y a Windows. Pour les riches Idiots, il y a mac os. Pour moi, il y a Ubuntu.

Hors ligne

#427 Le 24/07/2010, à 10:45

compte supprimé

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Tu as une interface graphique vieillote pour cuneiform: YAGF. par contre, cuneiform donne un résultat pourri chez moi. Pour l'instant, tesseract est ce qui marche le mieux. hmm

#428 Le 26/07/2010, à 09:40

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Retour à ce fil après quelques mois. Une nouveauté dans ce domaine est toujours intéressante. J'ai donc effectué quelques tests rapides.
Chez moi (L.L. 64 bits), Cuneiform fonctionne de deux façons différentes :
a/ sur le bureau, avec ce script :

#!/bin/bash
        
        cd ~/Bureau
        cuneiform fr *.jpg ;
        oowriter ~/Bureau/cuneiform-out.txt ;

il donne des résultats peu satisfaisants puisqu'il ne reconnaît pas les accents. Peut-être faut-il lui donner un autre argument que "fr" ?

b/ avec Yagf, les résultats sont acceptables et s'améliorent avec le contraste du document reconnu.
Preuves : -- un de mes documents test (photo d'une page à une coloonne et sous-exposée donc très grise) n'est pas reconnu alors que Tesseract le déchiffre sans problème.
              -- le même document, dont on accentue le contraste pour se rapprocher du noir et du blanc "parfaits" est mieux reconnu que s'il tend vers le gris.

c/ dans les deux cas (et avec les réserves évoquées ci-dessus) les pages à deux colonnes sont reconnues dans l'ordre, ce que ne fait pas Tesseract.

d/ j'oubliais : contrairement à Teseract, Cuneiform ne conserve pas la longueur des lignes des documents reconnus... Mais ce n'est pas forcément un inconvénient.

Conclusion : Cuneiform est à peu près équivalent à Ocropus et peut éventuellement le remplacer sous L.L. 64 bits où je n'arrive pas à le faire fonctionner.
À suivre...

Dernière modification par Bushman02 (Le 26/07/2010, à 09:48)

Hors ligne

#429 Le 10/08/2010, à 21:27

luc765

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

Le paramètre langue pour cuneiforme est "-l fra" et pour obtenir un résultat qui tient compte du format du texte il faut mettre la commande suivante : cuneiforme -l fra - f rtf . Par défaut et sans spécification de la langue c'est l'anglais qui est choisi, c'est normal que tu n'aies pas eu les accents.

Je pense ce logiciel prometteur mais pour l'instant tesseract pour ma part donne de meilleurs résultats mais hélas sans respecter la mise en page.

Lucien

http://users.skynet.be/linux-rixensart/app21_graphisme.html

Hors ligne

#430 Le 11/08/2010, à 11:22

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci de la précision, luc765. J'ai maintenant les accents !

Hors ligne

#431 Le 11/08/2010, à 14:19

luc765

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

1) J'ai essayé Tesseract-gui 2.5 de B52 Tout est nickel exception faite que je n'ai aucun document ouvert dans la page de droite ? y a t'il une astuce qui m'échappe ??
Il existe une version 2.7 de ce gui mais qui n'est pas compatible b52 ? Est ce que quelqu'un sait ou et comment demander ce portage à B52 ??

http://sourceforge.net/projects/tesseract-gui/

2) Pour info voici le site qui donne toutes les infos sur cuneiform. C'est en allemant mais compréhensible dans les grandes lignes :
http://wiki.ubuntuusers.de/Cuneiform-Linux

Lucien

Lucien

Hors ligne

#432 Le 11/08/2010, à 18:39

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

-- Avec Tesseract-gui, tu dois sélectionner un fichier image (texte déjà scanné). Pour cela, tu cliques sur "Sélection fichiers images" dans la colonne de gauche, tu sélectionnes un fichier, et le nom de ton fichier apparaît... dans "Dossier de destination", juste au-dessous. Il ne te reste qu'à cliquer sur le nom du fichier apparu et son image se forme alors dans la colonne de droite. Tu n'as plus qu'à faire "Exécuter". (Plus long à expliquer qu'à exécuter !)
J'espère que j'ai répondu à ta question.
-- J'utilise la version 2.7 (paquet deb.) car, en passant à Lucid Lynx, je n'ai pas utilisé le Tesseract de B52.
-- Habituellement, c'est Sorbus qui fait la demande à B52, je ne peux pas t'aider de ce côté-là. Peut-être Sorbus repassera-t-il par ici sous peu...
-- Merci pour le lien vers le site de Cuneiform. Je ne lis pas l'Allemand, mais les croquis semblent assez explicites.
Bonne rconnaissance !

Dernière modification par Bushman02 (Le 11/08/2010, à 18:40)

Hors ligne

#433 Le 12/08/2010, à 19:26

luc765

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir Bushman02,

1) Merci pour l'info "tu sélectionnes un fichier, et le nom de ton fichier apparaît....." je n'y avais pas pensé....

2) Je suis aussi sous ubuntu 10.04. Quels sont les paquets installés si tu n'utilises pas B52 et as-tu les mêmes facilités ? Je pense tesseract-fra, tesseract-ocr et tesseract-gui mais unpaper ? et autres ?? Y a t'il des restrictions si tu n'utilises pas B52 ??

3) J'ai ajouté sur le site de Rixensart la gestion des 3 ou 4 boutons de commande d'un scanner :
http://users.skynet.be/linux-rixensart/app21_graphisme.html#scanbuttond
et l'interface tesseract-gui :
http://users.skynet.be/linux-rixensart/app21_graphisme.html#tesseract-gui

Lucien

Hors ligne

#434 Le 12/08/2010, à 22:02

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

1) Je me suis probablement mal exprimé : je voulais dire que le nom du fichier apparaît dans la fenêtre où on ne l'attend pas ! Peu importe...
2) La multiplicité des langues mise à part, je ne me souviens pas très bien de la différence entre une installation "classique" (paquets de Synaptic) et une installation par les paquets de B52. Il faut dire que, depuis plus d'un an, mes besoins sont assez limités : en général une page d'une colonne. J'utilise donc surtout Xsane avec Xsane2tess ou un petit script fabriqué par Astre  il y a quelques mois (cf. ci-dessus, post n° 373)... ou bien Tesseract-gui.
Je pense qu'il doit y avoir des précisions sur les paquets de B52 dans la doc, ainsi que dans les posts de ce fil, posts assez nombreux il est vrai.

Hors ligne

#435 Le 26/10/2010, à 17:27

milhouse

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour à tous,

voilà, je ne sais pas trop comment présenter / expliquer mon problème.

J'ai testé le moteur d'OCR Tesseract, et je suis épaté par la simplicité d'installation et l'efficacité du truc.
(merci Google d'avoir dépoussiéré ce truc smile

Mais, car il y a un mais, j'aimerais intégrer dans un PDF l'image et le contenu textuel de façon à avoir un PDF dans lequel je peux faire des recherches et accessoirement qui peut être exploité par des outils d'indexation.

Je pensais que Gscan2pdf le faisait mais je n'ai pas l'impression que ce soit possible.

Merci d'avance pour les infos que vous pourrez m'apporter.

Cdlt
milhouse

Hors ligne

#436 Le 27/10/2010, à 01:52

luron

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

milhouse a écrit :

Je pensais que Gscan2pdf le faisait mais je n'ai pas l'impression que ce soit possible.

Selon un message du développeur, ça devrait être intégré prochainement ou déjà l'être. Toujours selon le développeur, Tesseract 2.04 ou 3.00 devrait avoir ce genre de fonctionnalités, mais je ne sais pas ce qui en est.

Sinon voici d'autres liens:

- pdfocr
- pdfsandwich

Hors ligne

#437 Le 02/11/2010, à 15:52

cyberic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour, je voudrai savoir si pour l'utilisation d'Xsane ce mode d'emploi est toujours d'actualité..parce que je viens de le faire et le résultat n'est pas très bon..


dans XSane : Applications → Images → Scanneur d'images XSane ;
dans la zone à droite de la cible, sélectionner "Enregistrer" ;
dans "Type", sélectionner "TEXT" ;
dans le sélecteur couleur ou N/B, sélectionner "Gris" ou "Noir et Blanc" (à tester selon le document à scanner).
et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 Arial, Times New Roman et Courier 10 Pitch donne les meilleurs résultats en 300 ppi).

dans la fenêtre "Aperçu", cliquer sur "Acquisition de l'aperçu" ;
recadrer sur la zone de texte à scanner ;

XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans "home/votre_identité" (selon les versions de Xsane). Il est possible de choisir le dossier d'enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'icône "disquette". On peut aussi nommer le fichier. Par exemple en remplaçant "out.txt" des captures d'écran ci-dessus par "/home/votre_identité/essai_ocr_1.txt" ;
cliquer sur "numériser" et attendre le "transfert de l'image" ;

copier-coller le contenu du fichier texte dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ;
terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.


- Asus S1-AT5NM10E - Ubuntu 14.04 (64 bits) - Intel® Atom™ D525 (onboard) Processor Socket 775 / integrated NVIDA ION II GT218 / DD 160Go+RAM 4 Go(2x2)+Chromium.
- Motorola MotoG 4G  Androïd 4.4.4

Hors ligne

#438 Le 02/11/2010, à 17:26

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Il me semble qu'il manque trois points à ce mode d'emploi :
a/ l'installation de tesseract-ocr par synaptic (ne pas oublier d'ajouter tesseract-ocr-fra pour le français !).
b/ l'installation du script xsane2tess, détaillé dans la doc, à la page suivante : http://doc.ubuntu-fr.org/xsane2tess.
c/ le paramétrage de xsane (Préférences/configuration/OCR) selon les conseils donnés à la fin de le même page de doc.
Ensuite, effectivement, tout se passe comme tu l'indiques avec un réglage en "gris", une résolution de 300 dpi et un choix de sortie en mode .txt.

Autre solution si on dispose d'une image déjà scannée (voir ci-dessus posts 373 et 374 p 15) : il suffit d'installer tesseract, de recopier le script et de l'utiliser, éventuellement avec un lanceur.

N.B. : tout cela ne fonctionne qu'avec des textes disposés sur une seule colonne.

Hors ligne

#439 Le 02/11/2010, à 18:29

cyberic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

merci beaucoup Bushman02 smile

1) Je suppose que le script commence sous la ligne de dièzes..c'est a dire ici: " xsane2tess is a TesseractOCR wrapper to be able to use tesseract with xsane"

2) je dois mettre mon identité dans une ligne de commande, est-ce que c'est ce que je vois quand j'ouvre le terminal?  "cyberic@Dell-Studio-XPS-1340:~$ "


- Asus S1-AT5NM10E - Ubuntu 14.04 (64 bits) - Intel® Atom™ D525 (onboard) Processor Socket 775 / integrated NVIDA ION II GT218 / DD 160Go+RAM 4 Go(2x2)+Chromium.
- Motorola MotoG 4G  Androïd 4.4.4

Hors ligne

#440 Le 02/11/2010, à 23:02

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Rappel rapide (si je dis des choses que tu sais, saute-les et va à ce qui t'es utile). Relis éventuellement de près la page dont je t'ai signalé le lien.
-- Pour ce qui est du script il commence au-dessus des dièses, précisément dès le premier dièse, à partir de : " # bin/bash".
-- Une fois ce script copié (en entier) dans gedit, tu l'enregistres et tu le rend exécutable avant de le mettre (en root) dans usr/bin. (Il n'y a pas besoin de ligne de commande).
-- Ensuite tu paramètres xsane2tess comme c'est précisé au bas de la page de la doc... et tu scannes.

Hors ligne

#441 Le 03/11/2010, à 09:59

cyberic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

avant de le mettre (en root) dans usr/bin

c'est ça que je ne sais pas faire..


- Asus S1-AT5NM10E - Ubuntu 14.04 (64 bits) - Intel® Atom™ D525 (onboard) Processor Socket 775 / integrated NVIDA ION II GT218 / DD 160Go+RAM 4 Go(2x2)+Chromium.
- Motorola MotoG 4G  Androïd 4.4.4

Hors ligne

#442 Le 03/11/2010, à 16:08

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour cela, il te faut soit utiliser une ligne de commande, soit avoir installé, à partir de synaptic, une extension de nautilus qui s'appelle très exactement "nautilus-gksu". Je te conseille de l'installer. Quand c'est fait, cette extension apparaît dans le déroulant qui s'affiche au clic droit de ta souris sur un fichier ou un dossier. Elle prend la forme d'une ligne :  "Ouvrir en tant qu'administrateur".
--Tu sélectionnes donc le dossier "bin" après avoir ouvert "usr" dans ton "système de fichiers",
-- tu fais un clic droit, la commande "Ouvrir en tant qu'administrtateur" apparaît,
-- tu cliques, ton mot de passe t'es demandé, tu le donnes et ça s'ouvre : tu es dans /usr/bin en tant qu'administrateur du système, c.-à-d. en root.
Tu n'as plus, alors, qu'à déposer "xsane2tess" dans "bin" (en ayant pris soin de rendre "xsane2tess" exécutable.)
Ensuite tu refermes "bin" sans rien changer d'autre, surtout : le moindre changement non contrôlé dans un fichier ou un dossier ouvert en root peut provoquer des dégâts, des plantages, etc.
Tout cela est beaucoup plus rapide à faire qu'à expliquer !
N'hésite pas à redemander des explications...

Dernière modification par Bushman02 (Le 03/11/2010, à 16:10)

Hors ligne

#443 Le 03/11/2010, à 18:34

cyberic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir Bushman02,

bon, je viens de faire ça,

/ l'installation de tesseract-ocr par synaptic (ne pas oublier d'ajouter tesseract-ocr-fra pour le français !).
une extension de nautilus qui s'appelle très exactement "nautilus-gksu".

pour Nautilus j'ai vérifié "Ouvrir en tant qu'administrateur". apparaît bien.

Pour éviter une boulette fatale, qu'entends t'on par "votre identité" ?

(sudo cp /home/votre_identité/Desktop/xsane2tess /usr/bin
ou sudo cp /home/votre_identité/Bureau/xsane2tess /usr/bin)

et ceci "déposer "xsane2tess" dans "bin" .. comment fait on?

merci

Dernière modification par cyberic (Le 03/11/2010, à 18:36)


- Asus S1-AT5NM10E - Ubuntu 14.04 (64 bits) - Intel® Atom™ D525 (onboard) Processor Socket 775 / integrated NVIDA ION II GT218 / DD 160Go+RAM 4 Go(2x2)+Chromium.
- Motorola MotoG 4G  Androïd 4.4.4

Hors ligne

#444 Le 04/11/2010, à 07:56

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour ce qui est de ta dernière question, j'y ai répondu dans mon post précédent (les 3 lignes commençant par "--" et les deux qui suivent). Maintenant que tu as installé nautilus gksu, c'est plus facile.

Pour la dernière partie de ta demande tu choisis une ligne ou l'autre selon que, dans ton répertoire personnel (/home), tu as un sous -répertoire qui est nommé "Desktop" ou "Bureau"
Quant à "votre identité" : c'est ton identifiant, celui que tu as donné au moment où tu as installé Ubuntu.
Exemple : si, d'une part, je m'appelle Armand-Ernest Dupont et que j'aie choisi "aed" comme identifiant ; si, d'autre part, dans mon /home, j'ai un sous-répertoire "Bureau", j'aurai à modifier ainsi la deuxième ligne que tu proposes :

sudo cp /home/aed/Bureau/xsane2tess /usr/bin

Dernière modification par Bushman02 (Le 04/11/2010, à 07:57)

Hors ligne

#445 Le 07/11/2010, à 16:47

cyberic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci pour tes explication Bushman02 smile ..je vais auparavant tester l'OCR en ligne.


- Asus S1-AT5NM10E - Ubuntu 14.04 (64 bits) - Intel® Atom™ D525 (onboard) Processor Socket 775 / integrated NVIDA ION II GT218 / DD 160Go+RAM 4 Go(2x2)+Chromium.
- Motorola MotoG 4G  Androïd 4.4.4

Hors ligne

#446 Le 16/02/2011, à 22:02

LLouis

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir,

J'utilisais sans problème particulier XSane avec xsane2tess sous ubuntu 10.04.
Je viens d'installer sur une nouvelle machine neuve (samsung 4530) ubuntu 10.10 et là l'ocr ne fonctionne pas avec XSane (0.997).
Le fichier txt obtenu est vide. J'ai vérifié que la configuration est bien faite ("xsane2tess -l fra" pas d'espace, "L" en minuscule)

Et si j'utilise tesseract en ligne de commande après avoir scanné en TIFF,(en suivant les indication donné sur cette page http://doc.ubuntu-fr.org/tesseract-ocr), alors la reconnaissance a bien lieu et elle est correcte.

Voici le log qui manifestement signale des erreurs.

Tesseract Open Source OCR Engine
/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.tif: Not a TIFF or MDI file, bad magic number 13136 (0x3350).
tesseract:Error:Read of file failed:/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.tif
/usr/local/bin/xsane2tess: line 78:  2548 Erreur de segmentation  tesseract "$TIF_FILE" "$TXT_FILE" -l "$TES_LANG" 1>&2
cat: /home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.txt': Aucun fichier ou dossier de ce type

Merci pour les pistes


Ubuntu 12.04 LTS

Hors ligne

#447 Le 16/02/2011, à 22:47

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Trop faible techniquement pour te donner des conseils à partir de ton log. Chez moi Xsane2tess fonctionne (Maverick 64bits) mais j'ai souvent eu des messages semblables par le passé.
Visiblement tesseract est convenablement installé puisque tu obtiens des résultats après un scan en .tiff
Visiblement tu as installé un répertoire tmp dans ton /home...
Une question qui pourra peut-être t'aider : as-tu installé imagemagick ou graphicsmagick ? Remplace le premier par le second le cas échéant (l'install de graphicsmagik entraîne la suppression d'imagemagick auquel il se substitue). Je crois avoir résolu un de mes problèmes de cette façon-là il y a quelque temps.
Désolé de ne pas pouvoir être plus précis.

Dernière modification par Bushman02 (Le 16/02/2011, à 22:47)

Hors ligne

#448 Le 17/02/2011, à 13:06

LLouis

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci pour cette piste qui de fait se révèle bonne.
Après installation de graphicksmagick, le script xsane2tess s'exécute maintenant correctement et j'obtiens le fichier txt attendu.:)
Encore merci et bravo


Ubuntu 12.04 LTS

Hors ligne

#449 Le 17/02/2011, à 19:35

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

De rien, c'était avec plaisir. Je suis content que mes erreurs puissent, une fois corrigées, servir aux autres.

Hors ligne

#450 Le 19/02/2011, à 12:42

ZavezPasVu

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci à Bushman02 pour m'avoir mis sur la piste alors que j'avais le même problème que LLouis.
Je précise que j'ai du installer le paquet graphicsmagick-imagemagick-compat pour retrouver un fonctionnement correct (graphicsmagick seul ne suffit pas).

Hors ligne

Haut de page ↑