Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

hector · Le 04/02/2008, à 00:33

Bonsoir,
Je crois qu'à un moment dans ce fil, vous vous demandiez ce que faisait exactement l'option "unpaper": voici ce que j'ai trouvé, je ne sais pas si ça peut vous être utile: http://unpaper.berlios.de/.
En gros, unpaper essaie de nettoyer les images scannées en enlevant les coins sombres de la page (obtenus typiquement après photocopie de livres) et essaie de détecter et corriger les lignes non alignées voire circulaires (cas classique d'une photocopie de gros bouquin).

édition: je viens de relire la page 5 de ce fil , et vois que vous connaissiez déjà cette page... au temps pour moi!

Dernière modification par hector (Le 04/02/2008, à 18:23)

Sorbus · Le 04/02/2008, à 16:43

Une nouvelle version de gscan2pdf (0.9.21) est disponible depuis le 1er février. Je n'ai pas étudié les nouveautés... Pas encore de possibilité de faire une "prénumérisation" et de pouvoir sélectionner une zone de texte.

Autre chose : j'ai noté que gscan2pdf subit un bug de certaines versions de imagemagick (dont celle disponible dans les dépots Gutsy) pour convertir les fichiers JPG en TIF.

Dernière modification par Sorbus (Le 08/03/2008, à 23:15)

ferker · Le 04/02/2008, à 18:09

à€ propos de ce queje disais page 6 :"Le paquet gs-common a été remplacé par le paquet ghostscript."

Voilà ce qe j'ai dans synaptic pour gs-common (version 8.61.dfsg.1~svn8187-Oubuntu3.3 (gutsy updates)

Transitional package
This dummy package is provided for a smooth transition from the
previous gs-.../gs-common combo (the packages are replaced by ghostscript).
It may safely be removed after installation

.

Je n'en sais pas plus...

Dom · Le 04/02/2008, à 18:21

@sorbus
Le problème de non fonctionnement de tesseract en ligne de commande a disparu depuis que j'ai réinstallé suivant la dernière procédure décrite ; c'est donc du passé.
Par contre le format .tiff est toujours rejeté ; voilà ce que j'obtiens :

dom@ordisup:~$ tesseract /home/dom/Documents/Images/Iscan/102b.tiff /home/dom/Desktop/essai
Tesseract Open Source OCR Engine
name_to_image_type:Error:Unrecognized image type:/home/dom/Documents/Images/Iscan/102b.tiff
IMAGE::read_header:Error:Can't read this image type:/home/dom/Documents/Images/Iscan/102b.tiff
tesseract:Error:Read of file failed:/home/dom/Documents/Images/Iscan/102b.tiff
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3

Pour l'usage de la ROC avec des tableaux, je rédige un autre message.
Enfin, avec le nouveau paquet de Gscan2pdf je peux lancer le scanner (HP Photosmart 2575 Tout-en-un) directement depuis gscan2pdf ; la ROC s'enchaà®ne automatiquement derrrière si on le souhaite ; le seul inconvénient est que l'on ne peut choisir le morceau de page dont on veut faire la reconnaissance.

Dom · Le 04/02/2008, à 19:51

Pour faire de la reconnaissance à partir de tableaux voilà la procédure un peu lourde que j'ai utilisée ; j'ai pris un exemple avec un petit tableau pour lequel l'usage de la ROC n'est pas utile (il vaut mieux ressaisir).
1. Je scanne le tableau que je veux reconnaà®tre au format .tif et à la résolution de 300 dpi.
2. J'ouvre gscan2pdf et j'importe le fichier ; je le traite avec Outils > Seuil puis Outils > unpaper et enfin Outils > ROC ; j'obtiens :

3. Je copie/colle vers OpenOffice/texte ; je nettoie pour enlever les coquilles et laisser un espace entre le contenu des cellules :

4. Je lance Edition > Remplacer pour remplacer les espaces par des apostrophes :

J'obtiens :

5. Pour obtenir un tableau j'utilise Tableau > Convertir > Texte en tableau et je choisis la séparation, apostrophe :

On obtient :

6. Si je veux que le tableau soit repris dans une feuille de calcul je procède ainsi ; je copie le texte nettoyé et le colle dans une feuille de classeur avec collage spécial en choisissant texte non formaté :

je choisis alors la séparation par apostrophe :

et on obtient :

Voilà , voilà . Il doit y avoir plus simple, mais en attendant ...

Dernière modification par Dom (Le 04/02/2008, à 20:17)

Sorbus · Le 04/02/2008, à 19:55

le seul inconvénient est que l'on ne peut choisir le morceau de page dont on veut faire la reconnaissance.

Oui, c'est encore un gros inconvénient que plusieurs d'entre nous ont souligné. Pas de prévisualisation... donc aucune possibilité de sélectionner un morceau de page (une zone du texte).

@ zarer
A ce sujet, puisque vous (Linux on the root) aviez eu un premier contact avec Jeffrey Radcliffe, vous pourriez lui poser la question de savoir s'il peut envisager ce développement dans une prochaine version ?

Dernière modification par Sorbus (Le 08/03/2008, à 23:16)

Sorbus · Le 04/02/2008, à 22:44

@Dom
Merci pour la description des étapes pour les tableaux... Pour l'instant, je ne pense pas qu'il y ait plus simple. A l'avenir, on pourra sans doute espérer avoir mieux avec ocropus. Mais en attendant, ta méthode est utile.

Pour le rejet de fichiers .tiff par tesseract, ça reste étonnant. Le message d'erreur est le même que ce que donne tesseract pour un fichier .png (ou autre). As-tu essayer d'ouvrir ton fichier 102b.tiff avec Gimp... de "l'enregistrer sous", en lui donnant un autre nom, et en choisissant à nouveau le format .tiff...
... et de ressayer tesseract sur ce nouveau fichier .tiff
Simplement pour voir ce que ça donne... et essayer de comprendre.

@ferker...
OK, je n'avais pas lu jusqu'au bout les données de Synaptic. Je corrige le tuto. Merci.

@tous
Une astuce pour scanner des papiers fins (plus ou moins transparents) imprimés sur les deux faces, comme des coupures de journaux... pour ceux qui ont un scanneur à fond blanc : utiliser un morceau de carton noir, et le mettre derrière le document à scanner

Dernière modification par Sorbus (Le 08/03/2008, à 23:17)

Sorbus · Le 05/02/2008, à 19:24

... Voilà quelque chose qui me semble encore bien compliqué à installer, mais qui parait prometteur : un plugin ocr exérimental pour abiword, utilisant ocropus... Voir la vidéo.

Dernière modification par Sorbus (Le 08/03/2008, à 23:18)

le_schtroumpf · Le 11/02/2008, à 17:14

Dom a écrit :

@sorbus
Par contre le format .tiff est toujours rejeté ; voilà ce que j'obtiens :

Xsane enregistre les images en tiff avec une certaine compression. Or, Tesseract ne reconnaà®t que les tiff sans compression. Il suffit donc d'ouvrir l'image avec Gimp, l'enregistrer sous avec le même nom et de choisir dans les options qui apparaà®tront "Compression : aucune".

Dom · Le 13/02/2008, à 00:00

@ le_schtroumpf
Message reçu ; merci.

hector · Le 25/02/2008, à 15:11

ocropus a été empaqueté pour suse (paquet RPM): http://software.opensuse.org/search?p=1&q=ocropus

à essayer avec alien?

édition: après conversion du paquet par alien et installation:

hector@LaGrosseBete:~$ ocropus 
ocropus: error while loading shared libraries: libedit.so.0: cannot open shared object file: No such file or directory

Or, synaptic ne propose que libedit2 ...

Dernière modification par hector (Le 29/02/2008, à 14:40)

Sorbus · Le 01/03/2008, à 10:44

Salut à tous,

Je viens de trouver la méthode - que je cherchais depuis longtemps - pour remplacer automatiquement sous OpenOffice writer toutes les marques de paragraphe d'un texte par des espaces. Très utile pour un document issu d'une ROC, sorti en texte brut (ce que produit Xsane par exemple). Copié-collé dans un nouveau document OpenOffice, on a une marque de paragraphe à toutes les lignes.
Il suffit donc dans OOo de faire :
Edition --> Rechercher & remplacer
puis, dans la fenêtre "Rechercher & remplacer", cliquer sur "autres options", cocher la case "Expressions régulières".
Puis, dans la case "Rechercher", mettre :
$
... et dans la case "Remplacer par", mettre simplement une espace.
Puis cliquer sur "remplacer tout".

Et le tour est joué. On peut utiliser le vérificateur orthographique pour finir de traiter les dernières petites imperfections de la ROC.

Petit truc utile en plus. J'ai un texte brut issu d'une ROC effectuée avec Xsane.
Il y a une marque de paragraphe à toutes les lignes... 95% de ces marques de paragraphe sont inutiles... Mais je repère aussi facilement celles qui correspondent à de vrais paragraphe du texte d'origine (par exemple les lignes qui sont tronquées avant le bout de ligne vers la droite)... Et puis il suffit de comparer rapidement le texte d'origine avec le texte obtenu par la ROC. La suppression automatique de toutes les marques de paragraphe va supprimer aussi celles-ci.
Donc :
- j'ajoute une brève suite de caractères qu'on ne peut retrouver dans le texte à la fin de chaque vrai paragraphe. Par exemple -AAA- (ajouté par copié-collé si besoin)
- je supprime toutes les marques de paragraphe comme indiqué plus haut
- et je remplace les -AAA- par des marques de paragraphe comme suit :

Edition --> Rechercher & remplacer
puis, dans la fenêtre "Rechercher & remplacer", cliquer sur "autres options", cocher la case "Expressions régulières".
Puis, dans la case "Rechercher", mettre :
-AAA-
... et dans la case "Remplacer par", mettre :
\n
Puis cliquer sur "remplacer tout".

... et voilà notre texte d'origine reconnu, avec conservation des paragraphes.

A défaut d'avoir un plugin OCR fonctionnel sous Abiword ou OOo, cette petite procédure rapide m'est très utile... et je pense qu'elle peut servir à d'autres.

PS. : je viens de scanner avec Xsane plusieurs pages d'un texte en Allemand en sortie TXT (avec ROC Tesseract cf. xsane2tess)... puis transfert dans OOo comme indiqué ici. Le résultat est excellent.

Dernière modification par Sorbus (Le 12/09/2008, à 08:43)

lesauc · Le 02/03/2008, à 16:46

Bonjour,

Je viens d'acquerir une Brother DCP 357c, avec un scanner intégré, j'ai eu beau essayé avec gscan2pdf aussi bien par Tesseract que par Gocr même avec Xsane2tess, le résultat est soit un fichier txt vide ou rempli de signes incongrus...
Si quelqu'un a une solution ou un conseil à me filer...ben je suis preneur...Bon courage à tous

Sorbus · Le 02/03/2008, à 23:13

Bonsoir lesauc,

Si tu scannes une image avec ton scanneur intégré, ça scanne bien ? Le résultat est bon ?

Si oui, le problème ne provient pas du scanneur, mais de l'installation ou de la configuration des outils de ROC.

As-tu installé tesseract en suivant la documentation ? Avec le paquet .deb de b52 ?

Si oui, le problème ne vient pas de tesseract...

1ère possibilité : gscan2pdf. Tu l'as installé comment ? Quelle version ?
Pour réaliser la ROC, comment as-tu procédé ?

2ème possibilité : Xsane + xsane2tess. Pour installer xsane2tess, as-tu bien suivi pas à pas la démarche indiquée dans la doc ? Et pour réaliser ensuite la ROC avec Xsane, tu n'as pas grillé une étape ?

Voilà, essaye de préciser un peu ce que tu as fait pour qu'on puisse t'aider.

Dernière modification par Sorbus (Le 02/03/2008, à 23:15)

lesauc · Le 03/03/2008, à 00:06

Si je scanne une image aucun problème, tesseract avec le paquet deb, gscan2pdf installé suivant le lien de "linux on the root"; xsane2tess installé suivant la doc ubuntu...

Sorbus · Le 03/03/2008, à 00:25

Ah ?
Et quand tu as utilisé Xsane, tu as bien fait ceci :

Ouvrir XSane : Applications → Graphisme → Scanneur d'images XSane
Dans Préférences → Configuration → Onglet "OCR" :
*Commande OCR : xsane2tess -l fra
*Option de fichier d'entrée : -i
*Option de fichier de sortie : -o

?

Autre chose : à quoi ressemble le texte sur lequel tu essayes de faire de la ROC ? Un texte imprimé ? écrit en noir sur blanc ? écrit avec quel type de police ?

Dernière modification par Sorbus (Le 03/03/2008, à 00:25)

lesauc · Le 03/03/2008, à 00:29

Il s'agit d'un texte manuscrit !

Est-ce que cela pose un problème ? Et oui donc je vais esayer avec un texte imprimé pour voir !
[EDIT] aucun souci avec un texte imprimé

Sinon , j'avais bien réglé les paramètres...:/

Dernière modification par lesauc (Le 03/03/2008, à 00:33)

Sorbus · Le 03/03/2008, à 08:04

Ah... OK lesauc. Non, pour l'instant, je ne pense pas que nous disposions de quelque chose de fonctionnel pour la ROC sur des textes manuscrits sous Linux. Ça viendra peut-être un jour. Et quand quelqu'un aura une info sur des nouveautés à ce sujet... il viendra sans doute le dire ici.
Mais déjà, pour les textes imprimés, tu n'auras pas de problème

lesauc · Le 03/03/2008, à 09:45

Merci beaucoup, peut etre un logiciel tournant avec wine à me proposer pur la reconnaissance des textes manuscrits ?

Sorbus · Le 03/03/2008, à 10:43

Personnellement, je n'ai pas réussi à faire tourner de logiciel de ROC avec wine. Faut-il encore que ce soit un logiciel adapté à la reconnaissance de textes manuscrits et performant. Probablement pas gratuit (?). Mais je ne connais pas bien ce domaine... Il va te falloir chercher via Google... et si tu réussis à obtenir quelque chose de bien, n'oublie pas de nous en faire part ici

Je viens de chercher un peu plus via Google. Trouvé dans un document daté de mai 2003 :

"La technique utilisée par les logiciels d’OCR consiste à isoler les différents signes, à les comparer à sa bibliothèque de symboles. Il est évident qu’un texte manuscrit aura un taux de reconnaissance très faible, même s’il est très bien écrit. Les logiciels d’OCR ont acquis aussi de l’intelligence artificielle en ayant d’une part des dictionnaires syntaxiques et grammaticaux qui contrôlent la cohérence de leur lecture, et d’autre part acquièrent la mémoire des typographies qu’ils lisent fréquemment. Un OCR sera donc d’autant plus efficace qu’il lira un grand nombre de pages typographiées de façon identique, après une certaine période d’apprentissage.
Pour autant, aucun OCR, aussi puissant qu’il soit, n’affirme avoir 100 % de réussite. Les plus optimistes garantissent 99 %. Sur une page de Journal officiel de 6000 signes, 99 % de réussite, c’est 60 fautes. En plus, ce sont des fautes qui sont passées au travers d’un correcteur orthographique et grammatical : le mot fauté est bien écrit et grammaticalement logique = le contresens assuré.
L’OCR est évidemment une technique utile, mais il faut en connaître les limites et en tenir compte, en prévoyant une ou plusieurs relectures humaines du document."

Pour la reconnaissance de textes manuscrits, il semble maintenant que l'on parle de ICR (Intelligent Character Recognition) et moins d'OCR. C'est à dire de reconnaissance intelligente des caractères (RIC) et non plus seulement de reconnaissance optique des caractères (ROC).

A propos de Reasiris Pro 11 (version la plus récente je crois, pour Mac) :

Une des grandes nouveautés de cette version est incarnée par l’incorporation d’un logiciel ICR qui signifie Intelligent Character Recognition et qui doit nous permettre de pouvoir effectuer une reconnaissance de texte manuscrit. En clair, il est désormais possible de numériser une feuille de papier sur laquelle vous avez inscrit à la main des notes par exemple. La version 11 vous permet de reconnaître du texte manuscrit, mais sous certaines conditions toutefois.
Tout d’abord du texte en majuscules uniquement sinon c’est impossible. La reconnaissance de l’écriture manuscrite est limitée aux chiffres (0-9), lettres majuscules (A-Z), symboles de ponctuation “,” (virgule) et “.” (point) et symboles spéciaux “+” (plus) et “-” (trait d’union).
Cette nouveauté est appréciable, forcément, mais de là à prévoir une utilisation quotidienne je doute que cela puisse être possible. Pour la bonne raison que lorsque vous prenez des notes, en général vous ne pensez pas à écrire en lettres majuscules en espaçant les caractères et en écrivant de façon régulière !

Certains logiciels comme Finereader ont sans doute progressé dans ce domaine de la RIC... mais je doute que l'on arrive à des résultat très satisfaisants sur de pleines pages de textes manuscrits (à la rigueur sans doute pour des formulaires où reviennent à peu près toujours les mêmes mots aux mêmes endroits, ou un choix de mots limité.)

Dernière modification par Sorbus (Le 03/03/2008, à 11:10)

hector · Le 10/03/2008, à 12:42

le_schtroumpf a écrit :

Dom a écrit :
@sorbus
Par contre le format .tiff est toujours rejetÃ© ; voilÃ ce que j'obtiens :
Xsane enregistre les images en tiff avec une certaine compression. Or, Tesseract ne reconnaÃ®t que les tiff sans compression. Il suffit donc d'ouvrir l'image avec Gimp, l'enregistrer sous avec le mÃªme nom et de choisir dans les options qui apparaÃ®tront "Compression : aucune".

D'après ce que je lis en haut de cette page, il suffit de rajouter la librairie libtiff pour que tesseract lise les tiff compressés. En pratique, il faut peut-être installer libtiff-dev avant de compiler tesseract??

Dernière modification par hector (Le 10/03/2008, à 12:43)

Le Goss · Le 10/03/2008, à 18:29

Sorbus a écrit :

Je viens de trouver la méthode - que je cherchais depuis longtemps - pour remplacer automatiquement sous OpenOffice writer toutes les marques de paragraphe d'un texte par des espaces.

Bonjour,
Merci pour cette astuce que j'ai passé pas mal de temps à chercher. Mais j'ai quand même un problème: Je dois traiter un fichier complet de plus de 400 pages avec des caractères du style UTFS8 (en langue grecque). Je ne peux traiter qu'une dizaine de paragraphes maximum à la fois. Au delà, Open Office plante. NB : Je suis encore sur windaube...
C'est grave docteur ?

Sorbus · Le 11/03/2008, à 23:49

Je dois traiter un fichier complet de plus de 400 pages avec des caractères du style UTFS8 (en langue grecque). Je ne peux traiter qu'une dizaine de paragraphes maximum à la fois.

Je n'ai jamais traité ainsi de fichier si volumineux. Je ne sais que dire. Cela dépend peut-être des versions d'OpenOffice... Mais le forum où tu devrais pouvoir trouver réponse est celui que tu trouveras sur ce lien.

Le Goss · Le 12/03/2008, à 09:41

Merci beaucoup ! :D:D
Je vais voir ça de suite

Sorbus · Le 14/03/2008, à 19:12

FAQ :

"J'aimerai savoir s'il existe un logiciel permettant de reconnaître les caractères et permettant, en scannant un document de le récupérer dans OOo2 afin de le modifier..."

Pour la ROC, les choses se sont beaucoup améliorées depuis un an. Pour ce que tu veux faire, il me semble que la meilleure méthode actuellement est d'utiliser Xsane avec tesseract (et donc avec l'adaptateur xsane2tess). Tout est expliqué dans la documentation. L'installation de tesseract 2.01 est très simple (un deb existe), mais sur le lien donné, il ne faut pas se noyer dans les explications préalables - même si elles sont intéressantes - et aller directement au paragraphe "Installation de tesseract-2.01 (Ubuntu 7.10 / Debian Etch)"

J'ai installé les choses comme indiqué dans la doc.

Ces temps-ci, je fais souvent cela : scan d'un document avec Xsane, configuré pour une sortie TXT avec reconnaissance (ocr) effectuée par tesseract.

Si le document à scanner comporte des colonnes ou des encadrés, il faut les scanner l'un après l'autre en cadrant la zone à scanner avec la fonction "acquisition de l'aperçu" dans Xsane.

Ensuite, on ouvre les documents TXT obtenus, et on les copie-colle dans une page OOo writer.

Il reste une petite manip à effectuer pour se débarrasser des marques de paragraphe inutiles.

On peut utiliser ensuite le correcteur orthographique de OOo. Mais sur du texte imprimé en noir sur blanc, la ROC est déjà de qualité, et il ne reste plus grand chose à corriger.

Par contre, il ne faut pas espérer obtenir quelque chose à partir d'un texte manuscrit; et les résultats sont médiocres pour du texte de diverses couleurs sur un fond non uniforme.

N.B. : une alternative à xsane+tesseract existe. C'est gscan2pdf+tesseract. Mais cette alternative est moins pratique pour ce que tu veux faire : pour l'instant gscan2pdf ne permet pas une présélection de la zone à scanner, ce qui pose problème pour les textes avec mise en page (colonnes, encadrés). Par contre, pour une ROC à effectuer sur des documents déjà numérisés, c'est la seule solution si on ne dispose pas d'un scanneur (puisque Xsane ne peut se lancer s'il ne reconnaît pas un scanneur présent).

Dernière modification par Sorbus (Le 14/03/2008, à 19:25)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#151 Le 04/02/2008, à 00:33

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#152 Le 04/02/2008, à 16:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#153 Le 04/02/2008, à 18:09

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#154 Le 04/02/2008, à 18:21

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#155 Le 04/02/2008, à 19:51

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#156 Le 04/02/2008, à 19:55

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#157 Le 04/02/2008, à 22:44

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#158 Le 05/02/2008, à 19:24

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#159 Le 11/02/2008, à 17:14

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#160 Le 13/02/2008, à 00:00

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#161 Le 25/02/2008, à 15:11

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#162 Le 01/03/2008, à 10:44

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#163 Le 02/03/2008, à 16:46

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#164 Le 02/03/2008, à 23:13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#165 Le 03/03/2008, à 00:06

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#166 Le 03/03/2008, à 00:25

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#167 Le 03/03/2008, à 00:29

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#168 Le 03/03/2008, à 08:04

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#169 Le 03/03/2008, à 09:45

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#170 Le 03/03/2008, à 10:43

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#171 Le 10/03/2008, à 12:42

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#172 Le 10/03/2008, à 18:29

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#173 Le 11/03/2008, à 23:49

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#174 Le 12/03/2008, à 09:41

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#175 Le 14/03/2008, à 19:12

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums