Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bushman02 · Le 19/02/2011, à 14:22

Tu fais bien de le signaler : je pensais que le paquet que tu cites s'installait en même temps que l'autre.
Merci !

Sorbus · Le 22/02/2011, à 18:28

Bonjour les amis,

Merci à Bushman02 de suivre le fil
D'après vos indications, je viens de compléter la doc sur xsane2tess.

J'ai relu le fil depuis un an. Je vois des questions à suivre, mais je ne sais si j'en aurai le temps...
- ou en est tesseract-ocr ?
- l'intérêt du deb de b52... et un portage de ce deb pour la dernière version de tesseract-ocr...
- tester cuneiform (je n'imaginais pas qu'une piste "libre" autre que tesseract pouvait donner actuellement de bons résultats... quoi que... en juillet 2008 - c'est vieux - Leonux avait obtenu de très bons résultats avec ocrad, mais son tuto n'est plus en ligne)
- où en est la dernière version de tesseract ?
- où en est Ocropus ?

J'avoue que depuis un an, j'ai peu suivi les évolutions... mais il doit y en avoir !

Dernière modification par Sorbus (Le 22/02/2011, à 19:38)

rmy · Le 23/02/2011, à 00:30

Salut Sorbus, je suis le fil de loin, j'ai toujours tout lu, mais jamais eu le temps de tester… bref, pas plus d'infos de ma part pour l'instant.

Bushman02 · Le 23/02/2011, à 09:10

Salut, Sorbus ! Content de te revoir passer par ce fil.
Il est toujours dans la rubrique "Mes messages" et j'essaie de répondre aux quelques questions posées, tant qu'elles ne dépassent pas mes compétences.
- Merci d'avoir mis à jour la doc d'xsane2tess.
- Le deb de B52 me semble toujours d'actualité puisqu'il permet une installation plus simple pour ceux qui le désirent.
- J'ai fait quelques essais avec Cuneiform, mais sans plus. Les résultats me semblaient moins satisfaisants que ce qu'on peut obtenir avec Tesseract ou même Ocropus.
Ces derniers fonctionnent très bien sous Crunchbang (que j'essaie depuis presque un an en parallèle avec Ubuntu). Ils figurent dans les dépôts.Tesseract s'installe avec l'anglais par défaut : je l'utilise en rajoutant le paquet -fra. Les paquets pour ces deux langues suffisent à mes besoins. Ma dernière utilisation "intensive" a consisté à saisir, avec scan + xsane2tess, 110 pages de français en corps 12. Le rendement a été très bon.
- N.B. : Tesseract-gui continue à tourner impeccablement aussi bien sous Ubuntu que sous Crunchbang.
À bientôt !

Papy Octet · Le 26/02/2011, à 10:54

bonjour,
Voilà, je suis de passage sur ce fil et je vous fait part de mes expériences d'OCR.

J'ai des documents imprimés sur plusieurs colonnes et dont je ne dois "récupérer" que certaines parties de texte.
Là, quand je compare avec ReadIris Pro ... y'a pas photo ! Et la possibilité de sélectionner des parties de document à reconnaître, de séparer textes et images, de conserver la mise en page, ... faut oublier.
Alors je travaille en 2 temps :
1. Avec XSane, je scanne les parties que je veux récupérer, chacune dans une image différente en tons de gris à 300 DPI et que j'enregistre au format tif.
2. Dans gscan2pdf 0.9.29, je charge les différentes photos et lance alors la reconnaissance avec Tesseract.

Et là, j'ai un résultat plus que correct avec très peu de fautes de reconnaissance dans les caractères mais j'essaye d'éviter les polices "folkloriques".

J'ai vainement essayé de pouvoir reconnaître les caractères avec tesseract directement au départ de XSane. J'ai essayé plusieurs tutos. Aucun ne fonctionne chez moi. J'ai renoncé à faire d'autres essais et j'applique ma méthode qui me satisfait puisque je n'ai pas des centaines de textes à reconnaître par semaine, tout au plus une dizaine de pages A4 par mois.

C'est certes un peu plus fastidieux qu'avec RedIris mais quand on veut rester libre ... il faut bien faire des concessions.

Voilà, c'était juste pour faire avancer le schlimili, schimimi, schilimblick, schmilblick.

A+

Dernière modification par Papy Octet (Le 26/02/2011, à 14:36)

compte supprimé · Le 26/02/2011, à 11:15

Pour sorbus, niveau "nouveautés" :
Tesseract 3.00 est sorti ! Mais n'est pas encore packagé.
Il utilise une nouvelle dépendance pour traiter plus de formats d'image : leptonica.
Et utilise un nouveau système pour les langues.
J'ai envoyé un mail au créateur de tesseract-gui, peut-être qu'il mettra son programme à jour !

Bushman02 · Le 27/02/2011, à 09:24

@ Papy Octet (j'ai failli écrire Papy Mougeot)
Deux ou trois suggestions (ce ne sont que des suggestions...) susceptibles de te simplifier la vie :
-- au lieu de scanner en .tiff tu peux scanner en .jpg (toujours à 300 dpi). Il me semble que c'est un peu plus rapide.
-- ensuite, au lieu d'utiliser gscan2pdf, tu peux avoir recours au script donné en 3.5 par Sorbus dans la section de la doc "tesseract-ocr" (besoin d'un seul script pour les extensions jpg et png : il suffit de d'intervertir celles-ci le cas échéant et le script reconnaît le fichier). Le lancement est immédiat et les résultats sont aussi bons qu'avec gcsan2pdf, si on évite les polices "folkloriques" bien sûr.
-- au cas où tu aurais besoin de reconnaître un texte de deux ou plusieurs colonnes dans son ensemble, tu peux avoir aussi de bons résultats avec Ocropus.
-- pour ce qui est de la reconnaissance directe à partir du scanner, la page de la doc sur Xsane2tess et les conseils donnés par Sorbus sur cette même page permettent aussi d'aller plus vite, avec les mêmes résultats.
Cela dit simplement pour essayer de te faire gagner un peu de temps. Tu as mis au point ta méthode, elle fonctionne et nous avons tous qu'à partir des mêmes données, deux machines peuvent donner des résultats différents.
Bonnes Roc !

Papy Octet · Le 27/02/2011, à 11:21

Salut Bushman02,

Oh-là, Papy Mougeot ... c'est mon grand oncle par alliance (2m10 sans ses chaussures !)
Pour un peu répondre à tes suggestions :
- Je scanne en .tif parce que j'ai remarqué une meilleure reconnaissance des caractères (surtout ceux en italique) qu'avec le fichier en jpg malgré une définition de 300 dpi. Peut-être à cause de la compression qui peut fort bien diminuer la "résolution" des gris.
- J'ai essayé les scripts dont tu fais allusion mais je n'ai pas eu les résultats escomptés : plantage de l'application, ou alors rien du tout.
- Ocropus fonctionne mais le nombre d'erreurs lors de la reconnaissance est dramatique.
- les conseils de Sorbus ? Pas encore tout lu.

Mais dès que j'aurai un peu mieux le temps ... j'irai probablement relire tout ça.
Merci pour les conseils.

Dernière modification par Papy Octet (Le 27/02/2011, à 11:23)

kordonnier · Le 09/05/2011, à 13:13

Écriture manuscrite ?

Je me suis acheté un Irisnotes (http://www.irislink.com/c4-1626-225/IRI … fAodiC-WuQ)
Je parviens à récupérer une image de mes notes manuscrites sous Kubuntu (voir http://forum.ubuntu-fr.org/viewtopic.php?id=441297)
L'appareil est fourni avec un système d'OCR qui permet de transformer l'écriture manuscrite en *.txt.
Est-ce que quelqu'un a déjà testé quelque chose qui ferait l'équivalent sous Linux ?

Papy Octet · Le 19/05/2011, à 08:26

Tu as regardé ce post ?

L'Africain · Le 21/05/2011, à 11:21

Boujour,
Je n'arrive pas à faire fonctionner ocropus, voilà ce qu'il me répond :

./ocr-utils/ocr-utils.cc:83 FAILED ASSERT (WARNING) average_border_intensity<=127 || average_border_intensity>=128
ocroscript: /usr/share/ocropus/scripts//recognize.lua:180: essai.html: file has an unknown extension

Je n'ai trouvé personne qui ai le même problème que moi, je me permet donc de demander, merci d'avance.

Papy Octet · Le 23/05/2011, à 14:52

En effet, c'est curieux car le code de l'application devrait gérer ce problème.

    int average_on_border(colib::bytearray &a) {
        int sum = 0;
        int right = a.dim(0) - 1;
        int top = a.dim(1) - 1;
        for(int x = 0; x < a.dim(0); x++)
            sum += a(x, 0);
        for(int x = 0; x < a.dim(0); x++)
            sum += a(x, top);
        for(int y = 1; y < top; y++)
            sum += a(0, y);
        for(int y = 1; y < top; y++)
            sum += a(right, y);
        // If average border intensity is between 127-128, inverting the
        // image does not work correctly
        float average_border_intensity = sum / ((right + top) * 2.0);
        ASSERTWARN(average_border_intensity<=127 || average_border_intensity>=128);
        return sum / ((right + top) * 2);
    }

Il faudrait vérifier l'origine de la version de ce logiciel et éventuellement recharger les bons paquets ici.

Il faudrait également donner un peu plus de détails sut ton installation : OS, version du logiciel, quelques infos sur ton matos ( processeur, ram, formatage partitions, ...). (On peut placer cela dans son profil perso - vois ceux déjà existants).
Ça aide à la compréhension du problème .

A+

Dernière modification par Papy Octet (Le 23/05/2011, à 14:56)

L'Africain · Le 29/05/2011, à 19:58

J'ai des difficultés pour acceder à l'internet, donc excusez-moi si je ne réagis pas rapidement. Je suis sur la 10.04, Toshiba satellite Pro, 2G de ram en dualboot avec une partition commune.
La version d'Ocropus est la 0.3.2-1, ocropus-data est installé les paquets tidy aussi. C'est quoi les lignes de commandes dans ton message papy octet ?
Merci d'avance

steph33560 · Le 14/06/2011, à 12:27

Hello,

je recherche une solution d'OCR/ICR capable de détecter des zones type case à cocher, bouton radio, ...
Je dois numériser des formulaires genre CERFA avec beaucoup de cases à cocher, boutons radio, et des zones de saisie manuscrite libre.

En payant/fermé, j'ai des solutions, mais a priori les softs open source ne proposent pas ce genre de chose ;
1. Suis-je enduis d'erreur ? ;-)
2. Des idées pour me réorienter ?

Merci !

compte supprimé · Le 14/06/2011, à 19:45

steph33560 a écrit :

Hello,
je recherche une solution d'OCR/ICR capable de détecter des zones type case à cocher, bouton radio, ...
Je dois numériser des formulaires genre CERFA avec beaucoup de cases à cocher, boutons radio, et des zones de saisie manuscrite libre.
En payant/fermé, j'ai des solutions, mais a priori les softs open source ne proposent pas ce genre de chose ;
1. Suis-je enduis d'erreur ? ;-)
2. Des idées pour me réorienter ?
Merci !

Tesseract reconnait pas mal de caractères, comme des ligatures (et il en fout partout en plus !).
Donc si ça se trouve, il te substituera les cases à cocher par le caractère idoine.

SDG2015 · Le 24/08/2011, à 21:55

Bojour à tous,

J'ai un petit problème avec Open Office Writer. Je ne sais pas quel est la version, mais comme j'ai réinstallé Ubuntu il y a une semaine, et que je fait les mise à jour...

Mon petit problème est le suivant, je n'arrive pas à exporté mes document en PDF de façon à ce qu'il soient protégés. Pas de copie de contenu, pas de modifications et pas d'impression.

Évidement, je passe par fichier > exporter au format PDF > sécurité et j'entre un mot de passe d'autorisation pour ensuite sélectionner Impression non autorisée, modification non autorisé et je désactive Autorisé la copie de contenu. Puis Exporter.

J'obtiens un fichier PDF je l'ouvre en double cliquant ... et je peu copier le contenu, l'imprimer..etc et si je regarde dans fichier> propriétés... ça m'indique sécurité : non

Si j'ouvre à nouveau mon doc. et que je retourne dans fichier > exporter au format PDF > sécurité, mais sans entrer de mot de passe... je vois que les sélection sont OK. ( Impression: non autorisée, modification: non autorisé...) j'ai donc exporter de nouveau (sans entrer de mot de passe puisque les sélection son OK)... Même résultat... le fichier PDF n'est toujours pas sécurisé.

Donc:
1-Soit cette fonction ne fonctionne pas,
2-soit je suis un crétin.
Comme l'option 2 est plus probable, je demande un coup de main.

Merci
SDG2015

compte supprimé · Le 25/08/2011, à 08:51

Salut !
En fait, c'est tout simple : evince (le lecteur de pdf par défaut de ubuntu) ne respecte pas les protections.
Essaie avec adobe reader pour voir : je viens de faire le test, tout "marche"* comme il faut.

*(à mort les protections ! )

SDG2015 · Le 25/08/2011, à 11:40

Bonjour monsieurweller,

Donc je ne suis pas trop crétin... disons plutôt novice avec Linux.

J'ouvrais déjà mon doc PDF avec adode reader et il n'était quand même pas protégé . Donc j'ai évincé (Suprimé) evince de mes programmes, et j'ai recommencé l'opération à partir de open office et maintenant, mon doc est protégé. Cela a-t-il quelque chose à voire !??! peu importe. Merci du conseil.

Ceci dit, si quelqu'un ouvre ce doc avec evince, pourra-t-il le modifier ou en copier des parties. Je ne suis pas du genre frileux mais, pour ce doc c'est important.

Merci encore
SDG2015

Dernière modification par SDG2015 (Le 25/08/2011, à 11:41)

compte supprimé · Le 25/08/2011, à 12:17

SDG2015 a écrit :

Ceci dit, si quelqu'un ouvre ce doc avec evince, pourra-t-il le modifier ou en copier des parties. Je ne suis pas du genre frileux mais, pour ce doc c'est important.

Il pourra faire ce qu'il veut, et c'est vrai pour une très grande partie des lecteurs PDF disponibles tout OS confondus.
La seule protection universelle et efficace pour les PDF, c'est l'accès par mot de passe (si la personne n'a pas le password, elle ne peut pas ouvrir le PDF, donc).

SDG2015 · Le 25/08/2011, à 16:06

Bonjour monsieursweller,

Ouais! C'est bon à savoir.
Finalement, on peut que l'option 1 n'était pas tout à fait fausse...

Je ne vois pas quoi dire de plus que "à mort les protections !"

Merci pour tes réponses judicieuses.
À une prochaine fois.

fralyon · Le 30/08/2011, à 08:22

Si l'OCR sous linux est si complexe
existe t il la possibilité d'avoir depuis un fichier image,
un fichier pdf avec le texte issu de l'OCR masqué ?

siscard · Le 21/11/2011, à 19:12

Bonjour,

Cuneiform 0.7.0 me renvoie "Erreur de segmentation" lorsque je lui demande en ligne de commande de reconnaitre un texte en jpg pour le restituer en RTF.

->cuneiform -l fra -f rtf -o salaison.rtf salaison.jpg
->Cuneiform for Linux 0.7.0
->Erreur de segmentation

Par ailleurs, il ne fonctionne pas du tout sous Xsane 0.998 alors qu'il a très bien fonctionné avant hier avant que je ne tente (un peu trop vite ) des logiciels audio, auxquels j'ai renoncé et désinstallé. Peut être j'ai oublié quelque chose ?

Tesseract lui fonctionne dans les 2 méthodes dans les 2 cas, sans restitution de la mise en page mais c'est ennuyeux de remettre les colonnes en place(donc convient pour du texte sur une colonne sans image). Pour cunéiform, je n'ai pas mis le script en place comme pour tesseract, car je n'ai pas trouvé quelles modification il fallait faire; ceci dit, cela ne me gène pas de l'utiliser en mode console pour ce que je veux faire (compiler des articles de presse professionnels assez courts sur plusieurs colonnes avec des images et des tableaux).

Par acquit de conscience, j'ai refait l'installation après suppression des paquets par Synaptic, mais rien de mieux.

Je voudrai savoir aussi s'il sait reconnaitre les cadres de tableaux (caractères semi-graphiques):)

Si quelqu'un peut m'aider sur ces 2 points ça serait super...
Merci d'avance

siscard · Le 22/11/2011, à 06:38

Bonjour à tous,

Ce matin, l'erreur de segmentation a disparu: mais c'est Magick qui ne sais plus lire .jpg.
Je vais tenter de le réinstaller.
Précision : je suis revenu sous Natty 11.04. Ocelot 11.10 rendait certains logiciels instables notamment QGIS et Synaptic.

siscard · Le 22/11/2011, à 06:58

C'est pas mieux. même en tif, l'erreur c'est :
Magick: unable to open image `salaison.tif': @ error/blob.c/OpenBlob/2498

Grand merci à l'âme charitable

siscard · Le 22/11/2011, à 07:33

Oups, j'avais oublié tout simplement de me loger dans le répertoire ad-hoc.

Et ça marche. Cuneiforme avec l'option rtf pour les textes en colonnes, Tesseract pour les textes simple colonne, mais il vaut mieux enlever les images dans les 2 cas et le copier dans le document final.

Si qq'un veut bien m'indiquer les modifications à faire au script, je suis preneur
:cool:Merci

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#451 Le 19/02/2011, à 14:22

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#452 Le 22/02/2011, à 18:28

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#453 Le 23/02/2011, à 00:30

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#454 Le 23/02/2011, à 09:10

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#455 Le 26/02/2011, à 10:54

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#456 Le 26/02/2011, à 11:15

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#457 Le 27/02/2011, à 09:24

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#458 Le 27/02/2011, à 11:21

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#459 Le 09/05/2011, à 13:13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#460 Le 19/05/2011, à 08:26

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#461 Le 21/05/2011, à 11:21

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#462 Le 23/05/2011, à 14:52

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#463 Le 29/05/2011, à 19:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#464 Le 14/06/2011, à 12:27

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#465 Le 14/06/2011, à 19:45

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#466 Le 24/08/2011, à 21:55

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#467 Le 25/08/2011, à 08:51

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#468 Le 25/08/2011, à 11:40

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#469 Le 25/08/2011, à 12:17

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#470 Le 25/08/2011, à 16:06

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#471 Le 30/08/2011, à 08:22

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#472 Le 21/11/2011, à 19:12

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#473 Le 22/11/2011, à 06:38

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#474 Le 22/11/2011, à 06:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#475 Le 22/11/2011, à 07:33

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums