Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#151 Le 04/02/2008, à 00:33

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir,
Je crois qu'à  un moment dans ce fil, vous vous demandiez ce que faisait exactement l'option "unpaper":  voici ce que j'ai trouvé, je ne sais pas si ça peut vous être utile: http://unpaper.berlios.de/.
En gros, unpaper essaie de nettoyer les images scannées en enlevant les coins sombres de la page (obtenus typiquement après photocopie de livres) et essaie de détecter et corriger  les lignes non alignées voire circulaires (cas classique d'une photocopie de gros bouquin).

édition: je viens de relire la page 5 de ce fil , et vois que vous connaissiez déjà  cette page... au temps pour moi!

Dernière modification par hector (Le 04/02/2008, à 18:23)

Hors ligne

#152 Le 04/02/2008, à 16:43

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Une nouvelle version de gscan2pdf (0.9.21) est disponible depuis le 1er février. Je n'ai pas étudié les nouveautés... Pas encore de possibilité de faire une "prénumérisation" et de pouvoir sélectionner une zone de texte.

Autre chose : j'ai noté que gscan2pdf subit un bug de certaines versions de imagemagick (dont celle disponible dans les dépots Gutsy) pour convertir les fichiers JPG en TIF.

Dernière modification par Sorbus (Le 08/03/2008, à 23:15)

Hors ligne

#153 Le 04/02/2008, à 18:09

ferker

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

à€ propos de ce queje disais page 6 :"Le paquet gs-common a été remplacé par le paquet ghostscript."

Voilà  ce qe j'ai dans synaptic pour gs-common (version 8.61.dfsg.1~svn8187-Oubuntu3.3 (gutsy updates)

Transitional package
This dummy package is provided for a smooth transition from the
previous gs-.../gs-common combo (the packages are replaced by ghostscript).
It may safely be removed after installation

.

Je n'en sais pas plus...


Transformons nos angoisses en connaissances...

Hors ligne

#154 Le 04/02/2008, à 18:21

Dom

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@sorbus
Le problème de non fonctionnement de tesseract en ligne de commande a disparu depuis que j'ai réinstallé suivant la dernière procédure décrite ; c'est donc du passé.
Par contre le format .tiff est toujours rejeté ; voilà  ce que j'obtiens :

dom@ordisup:~$ tesseract /home/dom/Documents/Images/Iscan/102b.tiff /home/dom/Desktop/essai
Tesseract Open Source OCR Engine
name_to_image_type:Error:Unrecognized image type:/home/dom/Documents/Images/Iscan/102b.tiff
IMAGE::read_header:Error:Can't read this image type:/home/dom/Documents/Images/Iscan/102b.tiff
tesseract:Error:Read of file failed:/home/dom/Documents/Images/Iscan/102b.tiff
Signal_exit 31 ABORT. LocCode: 3  AbortCode: 3

Pour l'usage de la ROC avec des tableaux, je rédige un autre message.
Enfin, avec le nouveau paquet de Gscan2pdf je peux lancer le scanner (HP Photosmart 2575 Tout-en-un) directement depuis gscan2pdf ; la ROC s'enchaà®ne automatiquement derrrière si on le souhaite ; le seul inconvénient est que l'on ne peut choisir le morceau de page dont on veut faire la reconnaissance.


Depuis plus de 15 ans fidèle à Ubuntu. Utilisateur de Xubuntu pour l'essentiel et principalement sur des ordinateurs pas tout jeunes ou reconditionnés tels que le mien un Thinkpad T 460s.
Des incursions chez Debian pour des questions liées aux ordinateurs 32 bits.
IL FAUT RECYCLER LES ORDINATEURS :)

Hors ligne

#155 Le 04/02/2008, à 19:51

Dom

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour faire de la reconnaissance à  partir de tableaux voilà  la procédure un peu lourde que j'ai utilisée ; j'ai pris un exemple avec un petit tableau pour lequel l'usage de la ROC n'est pas utile (il vaut mieux ressaisir).
1. Je scanne le tableau que je veux reconnaà®tre au format .tif et à  la résolution de 300 dpi.
2. J'ouvre gscan2pdf et j'importe le fichier ; je le traite avec Outils > Seuil puis Outils > unpaper et enfin Outils > ROC ; j'obtiens :
gscan2pdfkz1.th.png
3. Je copie/colle vers OpenOffice/texte ; je nettoie pour enlever les coquilles et laisser un espace entre le contenu des cellules :
openoffice1nc8.th.png
4. Je lance Edition > Remplacer pour remplacer les espaces par des apostrophes :
openoffice2pt0.th.png
J'obtiens :
openoffice3yo2.th.png
5. Pour obtenir un tableau j'utilise Tableau > Convertir > Texte en tableau  et je choisis la séparation, apostrophe :
openoffice4gb6.th.png
On obtient :
openoffice5ja6.th.png
6. Si je veux que le tableau soit repris dans une feuille de calcul  je procède ainsi ; je copie le texte nettoyé et le colle dans une feuille de classeur avec collage spécial en choisissant texte non formaté :
openoffice6pj0.th.png
je choisis alors la séparation par apostrophe :
openoffice6pj0.th.png
openoffice7id3.th.png
et on obtient :
openoffice8tc8.th.png
Voilà , voilà . Il doit y avoir plus simple, mais en attendant ...

Dernière modification par Dom (Le 04/02/2008, à 20:17)


Depuis plus de 15 ans fidèle à Ubuntu. Utilisateur de Xubuntu pour l'essentiel et principalement sur des ordinateurs pas tout jeunes ou reconditionnés tels que le mien un Thinkpad T 460s.
Des incursions chez Debian pour des questions liées aux ordinateurs 32 bits.
IL FAUT RECYCLER LES ORDINATEURS :)

Hors ligne

#156 Le 04/02/2008, à 19:55

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

le seul inconvénient est que l'on ne peut choisir le morceau de page dont on veut faire la reconnaissance.

Oui, c'est encore un gros inconvénient que plusieurs d'entre nous ont souligné. Pas de prévisualisation... donc aucune possibilité de sélectionner un morceau de page (une zone du texte).

@ zarer
A ce sujet, puisque vous (Linux on the root) aviez eu un premier contact avec Jeffrey Radcliffe, vous pourriez lui poser la question de savoir s'il peut envisager ce développement dans une prochaine version ?

Dernière modification par Sorbus (Le 08/03/2008, à 23:16)

Hors ligne

#157 Le 04/02/2008, à 22:44

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@Dom
Merci pour la description des étapes pour les tableaux... Pour l'instant, je ne pense pas qu'il y ait plus simple. A l'avenir, on pourra sans doute espérer avoir mieux avec ocropus. Mais en attendant, ta méthode est utile.

Pour le rejet de fichiers .tiff par tesseract, ça reste étonnant. Le message d'erreur est le même que ce que donne tesseract pour un fichier .png (ou autre). As-tu essayer d'ouvrir ton fichier 102b.tiff avec Gimp... de "l'enregistrer sous", en lui donnant un autre nom, et en choisissant à nouveau le format .tiff...
... et de ressayer tesseract sur ce nouveau fichier .tiff
Simplement pour voir ce que ça donne... et essayer de comprendre.

@ferker...
OK, je n'avais pas lu jusqu'au bout les données de Synaptic. Je corrige le tuto. Merci.

@tous
Une astuce pour scanner des papiers fins (plus ou moins transparents) imprimés sur les deux faces, comme des coupures de journaux... pour ceux qui ont un scanneur à  fond blanc : utiliser un morceau de carton noir, et le mettre derrière le document à  scanner wink

Dernière modification par Sorbus (Le 08/03/2008, à 23:17)

Hors ligne

#158 Le 05/02/2008, à 19:24

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

... Voilà  quelque chose qui me semble encore bien compliqué à  installer, mais qui parait prometteur : un plugin ocr exérimental pour abiword, utilisant ocropus... Voir la vidéo.

Dernière modification par Sorbus (Le 08/03/2008, à 23:18)

Hors ligne

#159 Le 11/02/2008, à 17:14

le_schtroumpf

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Dom a écrit :

@sorbus
Par contre le format .tiff est toujours rejeté ; voilà  ce que j'obtiens :

Xsane enregistre les images en tiff avec une certaine compression. Or, Tesseract ne reconnaà®t que les tiff sans compression. Il suffit donc d'ouvrir l'image avec Gimp, l'enregistrer sous avec le même nom et de choisir dans les options qui apparaà®tront "Compression : aucune".


"Le propre des imbéciles est de détester ce qu'ils ignorent." -Anonyme

Hors ligne

#160 Le 13/02/2008, à 00:00

Dom

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@ le_schtroumpf
Message reçu ; merci.


Depuis plus de 15 ans fidèle à Ubuntu. Utilisateur de Xubuntu pour l'essentiel et principalement sur des ordinateurs pas tout jeunes ou reconditionnés tels que le mien un Thinkpad T 460s.
Des incursions chez Debian pour des questions liées aux ordinateurs 32 bits.
IL FAUT RECYCLER LES ORDINATEURS :)

Hors ligne

#161 Le 25/02/2008, à 15:11

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

ocropus a été empaqueté pour suse (paquet RPM): http://software.opensuse.org/search?p=1&q=ocropus

à essayer avec alien?

édition: après conversion du paquet par alien et installation:

hector@LaGrosseBete:~$ ocropus 
ocropus: error while loading shared libraries: libedit.so.0: cannot open shared object file: No such file or directory

Or, synaptic ne propose que libedit2 ...

Dernière modification par hector (Le 29/02/2008, à 14:40)

Hors ligne

#162 Le 01/03/2008, à 10:44

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut à tous,

Je viens de trouver la méthode - que je cherchais depuis longtemps - pour remplacer automatiquement sous OpenOffice writer toutes les marques de paragraphe d'un texte par des espaces. Très utile pour un document issu d'une ROC, sorti en texte brut (ce que produit Xsane par exemple). Copié-collé dans un nouveau document OpenOffice, on a une marque de paragraphe à toutes les lignes.
Il suffit donc dans OOo de faire :
Edition --> Rechercher & remplacer
puis, dans la fenêtre "Rechercher & remplacer", cliquer sur "autres options", cocher la case "Expressions régulières".
Puis, dans la case "Rechercher", mettre :
$
... et dans la case "Remplacer par", mettre simplement une espace.
Puis cliquer sur "remplacer tout".

Et le tour est joué. On peut utiliser le vérificateur orthographique pour finir de traiter les dernières petites imperfections de la ROC.

Petit truc utile en plus. J'ai un texte brut issu d'une ROC effectuée avec Xsane.
Il y a une marque de paragraphe à toutes les lignes... 95% de ces marques de paragraphe sont inutiles... Mais je repère aussi facilement celles qui correspondent à de vrais paragraphe du texte d'origine (par exemple les lignes qui sont tronquées avant le bout de ligne vers la droite)... Et puis il suffit de comparer rapidement le texte d'origine avec le texte obtenu par la ROC. La suppression automatique de toutes les marques de paragraphe va supprimer aussi celles-ci.
Donc :
- j'ajoute une brève suite de caractères qu'on ne peut retrouver dans le texte à la fin de chaque vrai paragraphe. Par exemple -AAA- (ajouté par copié-collé si besoin)
- je supprime toutes les marques de paragraphe comme indiqué plus haut
- et je remplace les -AAA- par des marques de paragraphe comme suit :

Edition --> Rechercher & remplacer
puis, dans la fenêtre "Rechercher & remplacer", cliquer sur "autres options", cocher la case "Expressions régulières".
Puis, dans la case "Rechercher", mettre :
-AAA-
... et dans la case "Remplacer par", mettre :
\n
Puis cliquer sur "remplacer tout".

... et voilà notre texte d'origine reconnu, avec conservation des paragraphes.

A défaut d'avoir un plugin OCR fonctionnel sous Abiword ou OOo, cette petite procédure rapide m'est très utile... et je pense qu'elle peut servir à d'autres.

PS. : je viens de scanner avec Xsane plusieurs pages d'un texte en Allemand en sortie TXT (avec ROC Tesseract cf. xsane2tess)... puis transfert dans OOo comme indiqué ici. Le résultat est excellent.

Dernière modification par Sorbus (Le 12/09/2008, à 08:43)

Hors ligne

#163 Le 02/03/2008, à 16:46

lesauc

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

Je viens d'acquerir une Brother DCP 357c, avec un scanner intégré, j'ai eu beau essayé avec gscan2pdf aussi bien par Tesseract que par Gocr même avec Xsane2tess, le résultat est soit un fichier txt vide ou rempli de signes incongrus...
Si quelqu'un a une solution ou un conseil à me filer...ben je suis preneur...Bon courage à tous


Depuis Ubuntu 11.04
Espérez le meilleur, envisagez le pire, et prenez ce qui vient !

Hors ligne

#164 Le 02/03/2008, à 23:13

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir lesauc,

Si tu scannes une image avec ton scanneur intégré, ça scanne bien ? Le résultat est bon ?

Si oui, le problème ne provient pas du scanneur, mais de l'installation ou de la configuration des outils de ROC.

As-tu installé tesseract en suivant la documentation ? Avec le paquet .deb de b52 ?

Si oui, le problème ne vient pas de tesseract...

1ère possibilité : gscan2pdf
. Tu l'as installé comment ? Quelle version ?
Pour réaliser la ROC, comment as-tu procédé ?

2ème possibilité : Xsane + xsane2tess. Pour installer xsane2tess, as-tu bien suivi  pas à pas la démarche indiquée dans la doc ? Et pour réaliser ensuite la ROC avec Xsane, tu n'as pas grillé une étape ?

Voilà, essaye de préciser un peu ce que tu as fait pour qu'on puisse t'aider.

Dernière modification par Sorbus (Le 02/03/2008, à 23:15)

Hors ligne

#165 Le 03/03/2008, à 00:06

lesauc

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Si je scanne une image aucun problème, tesseract avec le paquet deb, gscan2pdf installé suivant le lien  de "linux on the root"; xsane2tess installé suivant la doc ubuntu...


Depuis Ubuntu 11.04
Espérez le meilleur, envisagez le pire, et prenez ce qui vient !

Hors ligne

#166 Le 03/03/2008, à 00:25

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Ah ?
Et quand tu as utilisé Xsane, tu as bien fait ceci :

Ouvrir XSane : Applications → Graphisme → Scanneur d'images XSane
Dans Préférences → Configuration → Onglet "OCR" :
    *Commande OCR : xsane2tess -l fra
    *Option de fichier d'entrée : -i
    *Option de fichier de sortie : -o

?

Autre chose : à quoi ressemble le texte sur lequel tu essayes de faire de la ROC ? Un texte imprimé ? écrit en noir sur blanc ? écrit avec quel type de police ?

Dernière modification par Sorbus (Le 03/03/2008, à 00:25)

Hors ligne

#167 Le 03/03/2008, à 00:29

lesauc

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Il s'agit d'un texte manuscrit !

Est-ce que cela pose un problème ? Et oui donc je vais esayer avec un texte imprimé pour voir !
[EDIT] aucun souci avec un texte imprimé

Sinon , j'avais bien réglé les paramètres...:/

Dernière modification par lesauc (Le 03/03/2008, à 00:33)


Depuis Ubuntu 11.04
Espérez le meilleur, envisagez le pire, et prenez ce qui vient !

Hors ligne

#168 Le 03/03/2008, à 08:04

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Ah... OK lesauc. Non, pour l'instant, je ne pense pas que nous disposions de quelque chose de fonctionnel pour la ROC sur des textes manuscrits sous Linux. Ça viendra peut-être un jour. Et quand quelqu'un aura une info sur des nouveautés à ce sujet... il viendra sans doute le dire ici.
Mais déjà, pour les textes imprimés, tu n'auras pas de problème wink

Hors ligne

#169 Le 03/03/2008, à 09:45

lesauc

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci beaucoup, peut etre un logiciel tournant avec wine à me proposer pur la reconnaissance des textes manuscrits ?


Depuis Ubuntu 11.04
Espérez le meilleur, envisagez le pire, et prenez ce qui vient !

Hors ligne

#170 Le 03/03/2008, à 10:43

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Personnellement, je n'ai pas réussi à faire tourner de logiciel de ROC avec wine. Faut-il encore que ce soit un logiciel adapté à la reconnaissance de textes manuscrits et performant. Probablement pas gratuit (?). Mais je ne connais pas bien ce domaine... Il va te falloir chercher via Google... et si tu réussis à obtenir quelque chose de bien, n'oublie pas de nous en faire part ici tongue

Je viens de chercher un peu plus via Google. Trouvé dans un document daté de mai 2003 :

"La technique utilisée par les logiciels d’OCR consiste à isoler les différents signes, à les comparer à sa bibliothèque de symboles. Il est évident qu’un texte manuscrit aura un taux de reconnaissance très faible, même s’il est très bien écrit. Les logiciels d’OCR ont acquis aussi de l’intelligence artificielle en ayant d’une part des dictionnaires syntaxiques et grammaticaux qui contrôlent la cohérence de leur lecture, et d’autre part acquièrent la mémoire des typographies qu’ils lisent fréquemment. Un OCR sera donc d’autant plus efficace qu’il lira un grand nombre de pages typographiées de façon identique, après une certaine période d’apprentissage.

Pour autant, aucun OCR, aussi puissant qu’il soit, n’affirme avoir 100 % de réussite. Les plus optimistes garantissent 99 %. Sur une page de Journal officiel de 6000 signes, 99 % de réussite, c’est 60 fautes. En plus, ce sont des fautes qui sont passées au travers d’un correcteur orthographique et grammatical : le mot fauté est bien écrit et grammaticalement logique = le contresens assuré.

L’OCR est évidemment une technique utile, mais il faut en connaître les limites et en tenir compte, en prévoyant une ou plusieurs relectures humaines du document."

Pour la reconnaissance de textes manuscrits, il semble maintenant que l'on parle de ICR (Intelligent Character Recognition) et moins d'OCR. C'est à dire de reconnaissance intelligente des caractères (RIC) et non plus seulement de reconnaissance optique des caractères (ROC).


A propos de Reasiris Pro 11 (version la plus récente je crois, pour Mac) :

Une des grandes nouveautés de cette version est incarnée par l’incorporation d’un logiciel ICR qui signifie Intelligent Character Recognition et qui doit nous permettre de pouvoir effectuer une reconnaissance de texte manuscrit. En clair, il est désormais possible de numériser une feuille de papier sur laquelle vous avez inscrit à la main des notes par exemple. La version 11 vous permet de reconnaître du texte manuscrit, mais sous certaines conditions toutefois.
Tout d’abord du texte en majuscules uniquement sinon c’est impossible.
La reconnaissance de l’écriture manuscrite est limitée aux chiffres (0-9), lettres majuscules (A-Z), symboles de ponctuation “,” (virgule) et “.” (point) et symboles spéciaux “+” (plus) et “-” (trait d’union).

Cette nouveauté est appréciable, forcément, mais de là à prévoir une utilisation quotidienne je doute que cela puisse être possible. Pour la bonne raison que lorsque vous prenez des notes, en général vous ne pensez pas à écrire en lettres majuscules en espaçant les caractères et en écrivant de façon régulière !

Certains logiciels comme Finereader ont sans doute progressé dans ce domaine de la RIC... mais je doute que l'on arrive à des résultat très satisfaisants sur de pleines pages de textes manuscrits (à la rigueur sans doute pour des formulaires où reviennent à peu près toujours les mêmes mots aux mêmes endroits, ou un choix de mots limité.)

Dernière modification par Sorbus (Le 03/03/2008, à 11:10)

Hors ligne

#171 Le 10/03/2008, à 12:42

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

le_schtroumpf a écrit :
Dom a écrit :

@sorbus
Par contre le format .tiff est toujours rejeté ; voilà ce que j'obtiens :

Xsane enregistre les images en tiff avec une certaine compression. Or, Tesseract ne reconnaît que les tiff sans compression. Il suffit donc d'ouvrir l'image avec Gimp, l'enregistrer sous avec le même nom et de choisir dans les options qui apparaîtront "Compression : aucune".

D'après ce que je lis en haut de cette page, il suffit de rajouter la librairie libtiff pour que tesseract lise les tiff compressés. En pratique, il faut peut-être installer libtiff-dev avant de compiler tesseract??

Dernière modification par hector (Le 10/03/2008, à 12:43)

Hors ligne

#172 Le 10/03/2008, à 18:29

Le Goss

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus a écrit :

Je viens de trouver la méthode - que je cherchais depuis longtemps - pour remplacer automatiquement sous OpenOffice writer toutes les marques de paragraphe d'un texte par des espaces.

Bonjour,
Merci pour cette astuce que j'ai passé pas mal de temps à chercher. Mais j'ai quand même un problème: Je dois traiter un fichier complet de plus de 400 pages avec des caractères du style UTFS8 (en langue grecque). Je ne peux traiter qu'une dizaine de paragraphes maximum à la fois. Au delà, Open Office plante. sad NB : Je suis encore sur windaube... mad
C'est grave docteur ? big_smile


Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags

Hors ligne

#173 Le 11/03/2008, à 23:49

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je dois traiter un fichier complet de plus de 400 pages avec des caractères du style UTFS8 (en langue grecque). Je ne peux traiter qu'une dizaine de paragraphes maximum à la fois.

Je n'ai jamais traité ainsi de fichier si volumineux. Je ne sais que dire. Cela dépend peut-être des versions d'OpenOffice... Mais le forum où tu devrais pouvoir trouver réponse est celui que tu trouveras sur ce lien.

Hors ligne

#174 Le 12/03/2008, à 09:41

Le Goss

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci beaucoup ! big_smile:D:D
Je vais voir ça de suite cool


Si je pose une question sur le forum, ce n'est pas par paresse ou pour faire faire "mes devoirs"; c'est par ignorance: j'ai 51 berges. Et, par principe, je préfère être traité d'ignare que de fainéant.
Samsung i7-3630QM CPU @ 2.40GHz × 8 - 64 bits - RAM 7,7 Gio - DD 976 Go - Bodhi 6.0.0 Ubuntu 20.04
Allergique au wysiwyg; traitement à vie: Lilypond - LaTeX - txt2tags

Hors ligne

#175 Le 14/03/2008, à 19:12

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

FAQ :

"J'aimerai savoir s'il existe un logiciel permettant de reconnaître les caractères et permettant, en scannant un document de le récupérer dans OOo2 afin de le modifier..."

Pour la ROC, les choses se sont beaucoup améliorées depuis un an. Pour ce que tu veux faire, il me semble que la meilleure méthode actuellement est d'utiliser Xsane avec tesseract (et donc avec l'adaptateur xsane2tess). Tout est expliqué dans la documentation. L'installation de tesseract 2.01 est très simple (un deb existe), mais sur le lien donné, il ne faut pas se noyer dans les explications préalables - même si elles sont intéressantes - et aller directement au paragraphe "Installation de tesseract-2.01 (Ubuntu 7.10 / Debian Etch)"

J'ai installé les choses comme indiqué dans la doc.

Ces temps-ci, je fais souvent cela : scan d'un document avec Xsane, configuré pour une sortie TXT avec reconnaissance (ocr) effectuée par tesseract.

Si le document à scanner comporte des colonnes ou des encadrés, il faut les scanner l'un après l'autre en cadrant la zone à scanner avec la fonction "acquisition de l'aperçu" dans Xsane.

Ensuite, on ouvre les documents TXT obtenus, et on les copie-colle dans une page OOo writer.

Il reste une petite manip à effectuer pour se débarrasser des marques de paragraphe inutiles.

On peut utiliser ensuite le correcteur orthographique de OOo. Mais sur du texte imprimé en noir sur blanc, la ROC est déjà de qualité, et il ne reste plus grand chose à corriger.

Par contre, il ne faut pas espérer obtenir quelque chose à partir d'un texte manuscrit; et les résultats sont médiocres pour du texte de diverses couleurs sur un fond non uniforme.

N.B. : une alternative à xsane+tesseract existe. C'est gscan2pdf+tesseract. Mais cette alternative est moins pratique pour ce que tu veux faire : pour l'instant gscan2pdf ne permet pas une présélection de la zone à scanner, ce qui pose problème pour les textes avec mise en page (colonnes, encadrés). Par contre, pour une ROC à effectuer sur des documents déjà numérisés, c'est la seule solution si on ne dispose pas d'un scanneur (puisque Xsane ne peut se lancer s'il ne reconnaît pas un scanneur présent).

Dernière modification par Sorbus (Le 14/03/2008, à 19:25)

Hors ligne