Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#376 Le 24/01/2010, à 17:48

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour les amis,

Je découvre avec intérêt les dernières évolutions. Je ne suis pas encore sous Karmic (problème de partition maintenant trop étroite et trop remplie pour réaliser une mise à niveau... et j'ai décidé d'attendre l'achat d'un nouveau portable prévue pour l'été prochain... Je vais donc probablement sauter l'étape Karmic).

Je n'ai donc pas pu tester l'utilisation d'Ocropus installé par les dépôts officiels. Pas le temps non plus pour l'instant de me replonger dans des séries de tests, et tant que je ne suis pas à jour, ce ne serait pas très utile... On en reparlera certainement d'ici un an, mais toute nouveauté, découverte truc et astuce sur la ROC sera la bienvenue sur ce fil.

J'ai noté aussi les messages de Zenigata concernant la reconnaissance de textes manuscrits. Il s'agit donc de "RIC" (reconnaissance intelligente de caractères). Pour l'instant avec wine et un logiciel propriétaire.

Je n'aurais pas cru que cela ait déjà atteint un niveau suffisant pour rendre service sur du texte en écriture attachée - et non répétitif - sans faire d'effort particulier pour une écriture très appliquée. Le message de Zenigata est vieux, mais à titre de curiosité, ça pourrait être intéressant pour nous de constater ce que ça donne : une image d'un texte manuscrit avec l'écriture de quelqu'un qui dit "écrire mal"... et le résultat de la RIC avec "Myscripts Notes" + Wine...

Et du coup, savoir aussi si des pistes s'ouvrent dans le domaine de la RIC avec des logiciels libres... Soyons à l'affut wink

Dernière modification par Sorbus (Le 24/01/2010, à 17:51)

Hors ligne

#377 Le 24/01/2010, à 19:22

Zenigata

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Original :

http://docs.google.com/viewer?url=http://img215.imageshack.us/img215/4315/tribo1.pdf


Après RIC :

http://docs.google.com/viewer?url=http://img716.imageshack.us/img716/5852/tribo2.pdf

Hors ligne

#378 Le 25/01/2010, à 16:15

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

C'est effectivement assez probant...
Merci !
Je suppose que ce résultat est obtenu après une certain temps d'apprentissage de ton écriture par le logiciel... Cela se fait assez vite ?

Dernière modification par Sorbus (Le 25/01/2010, à 16:16)

Hors ligne

#379 Le 31/01/2010, à 18:27

Zenigata

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

L'apprentissage se fait en recopiant 2 fois l'alphabet puis un texte d'un peu moins d'une page. Du coup, c'est plutôt rapide.

Hors ligne

#380 Le 01/02/2010, à 14:08

Zococo

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

J'utilise moi même MyScript Notes depuis quelques temps. C'est vrai que la RIC fonctionne mais le résultat est très variable d'une page à l'autre. Et je n'ai pas bien compris pourquoi, ce n'est pas vraiment le résultat de la qualité de l'écriture.

En fait j'ai très rapidement abandonné la RIC pour un usage habituel, je me contente d'archiver mes notes en pdf, c'est déjà du temps gagné. Si j'ai absolument besoin de retravailler mes notes manuscrites et si j'ai de la chance, je peux utiliser le résultat de la reconnaissance mais ce n'est pas garanti.

Le point faible du logiciel c'est qu'il ne dispose pas d'une fonction d'apprentissage au fur et à mesure : une fois le profil créé après copie des 2 ou 3 pages initiales, le profil n'évolue plus.

Cela dit la seule fonction de numérisation immédiate des notes prises avec conservation de l'original papier est déjà très utile.

En ce qui me concerne j'arrivais à le faire fonctionner avec Wine et Ibex mais pas sous Jaunty, je n'ai pas encore essayé avec Karmic. En revanche la visionneuse  (sans reconnaissance d'écriture) fonctionnait bien.

Dernière modification par Zococo (Le 01/02/2010, à 14:10)


Ubuntu 23.04 (64 bits) - Gigabyte B250M-DS3H / Core i5-7600K (Kaby lake) - Microsoft surface Go 3

Hors ligne

#381 Le 01/02/2010, à 20:28

Zenigata

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Alors pour wine, faut utiliser le mode natif pour je ne sais plus quelle bibliothèque.

Hors ligne

#382 Le 03/02/2010, à 13:10

jeanmichel78

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,
Après avoir lu des pages et des pages, je n'ai rien trouvé de récent concernant ce message.
Je viens d'installer Ocropus 0.2 à partir des paquets deb comme indiqué dans le wiki mis à jour le 27/11/09, je scanne avec xsane en PNG, fichier sur le bureau et quand je lance le script "ocroscript ...." j'ai le message "unable to load unicharset file /usr/share/tesseract-ocr/tessdata/eng.unicharset"
Le fichier eng n'existe pas dans le répertoire mais j'ai bien indiqué à ocropus d'utiliser fra (export tesslanguage=fra).
Dans Préférences/Configuration/OCR j'ai bien en commande OCR "xsane2tess -l fra"
Ma config: Ubuntu 9.04, Xsane installé par ubuntu.
Questions:
1. Est-ce qu'il y a une solution pour régler ce problème?
2. Est-ce qu'il y a pour Madame qqchose de plus convivial que le terminal pour lancer Ocropus?
Merci d'avance

Hors ligne

#383 Le 03/02/2010, à 19:28

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

1 - Dans /usr/share/tesseract-ocr/tessdata
tu as quoi ? Rien ?
Perso, dans /usr/share/tessdata
j'ai un lien vers le dossier :
/usr/share/tessdata

Dans ce dossier
/usr/share/tessdata
j'ai bcp de fichier dont eng.unicharset et fra.unicharset.

2 - Par quel moyen as-tu installé Tesseract ?
Compilation ?
Dépôts "officiels" ?
Paquet deb de "b52" ?

3 - "Dans Préférences/Configuration/OCR j'ai bien en commande OCR "xsane2tess -l fra""
Cela ne concerne que la ROC effectuée directement via Tesseract (et non Ocropus) lors du scan avec Xsane

4 - "2. Est-ce qu'il y a pour Madame qqchose de plus convivial que le terminal pour lancer Ocropus?"
A ma connaissance non... sauf si les choses ont beaucoup bougé depuis 6 mois, ce que j'ai peu suivi.

Hors ligne

#384 Le 03/02/2010, à 22:32

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je rectifie et complète mon message.
J'avais regardé tout à l'heure sur mon portable amd64 (sous Ubuntu 9.04)... où je n'avais pas encore installé Ocropus, mais où j'avais installé Tesseract, par le paquet de "b52" d'où l'emplacement des fichiers de langues dans /usr/share/tessdata.

Je suis allé voir sur mon fixe, mais j'y avais installé Ocropus 0.3 par compilation, ce qui ne permet pas la comparaison avec ton problème.

Sur mon portable :
J'ai donc désinstallé tesseract (celui de b52, hélas non compatible avec Ocropus) et installé Ocropus 0.2 comme indiqué dans la documentation Ubuntu.

Alors, les fichiers de langues installés sont ceux pour le français (fra) et l'allemand (deu) dont fra.unicharset et deu.unicharset... Ils sont bien dans /usr/share/tesseract-ocr/tessdata, où il n'y a pas les fichiers de langue spour l'anglais, dont eng.unicharset.

J'ai ensuite testé la ROC avec Ocropus comme indiqué dans la documentation. Elle se fait correctement et je n'arrive à reproduire ton message d'erreur que si j'omets de faire :

export tesslanguage=fra

avant de lancer sur le bureau :

ocroscript rec-tess essai.png > essai.html

Peux-tu confirmer que tu as bien lancé la commande

export tesslanguage=fra

sans aucune erreur d'écriture
avant de lancer

ocroscript rec-tess essai.png > essai.html

Si oui, je ne comprends pas. Il te reste un recours : installer le paquet tesseract-ocr-eng (le paquet de langue anglaise) pour voir ce que ça donne.

Si ça marche, il resterait alors à comprendre pourquoi on n'arriverait pas chez toi à activer la ROC en français...

Hors ligne

#385 Le 03/02/2010, à 23:31

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je ne veux pas parasiter inutilement le travail de Sorbus, que je salue au passage, mais je suis sensible à la demande de commande conviviale. De plus, je viens d'effectuer des essais en réinstallant ocropus sous Jaunty à partir du wiki, c.-à-d. dans les conditions de jeanmichel78. Je tente donc d'apporter de l'aide au cas où le problème de celui-ci ne serait pas réglé.
Une fois ocropus en place, voici un script, créé par Astre (cf page 15 de ce fil), et qui  donne des résultats convenables après des manipulations faciles.

#!/bin/bash

        export tesslanguage=fra ;
        cd ~/Bureau
        ocroscript rec-tess *.png > sortie.html ;
        oowriter sortie.html ;

-- le recopier ;
-- le rendre exécutable ;
-- le placer dans /home/.gnome2/nautilus-scripts ;
-- créer un lanceur sur le bureau, lanceur pointant vers le script en question (commande : /home/X.../.gnome2/nautilus-scripts/nom-du-script)
-- placer sur le bureau un scan de texte imprimé (.png, valeurs de gris et 300 dpi avec Xsane)
-- cliquer sur le lanceur : on obtient un texte en .html et une autre version dudit texte s'ouvre dans oowriter, ce qui permet de passer immédiatement aux vérifications orthographiques.

N.B. : a/ dans le script ci-dessus, on peut remplacer .png par .jpg, ou carrément faire deux scripts si on a beaucoup d'images, scannées différemment, à reconnaître.
b/ Attention à ne mettre sur le bureau qu'une ou deux images (je suis allé jusqu'à 4 !... mais mon processeur proteste) si l'on désire des opérations rapides !

P.S. : pour des textes ne comportant qu'une seule colonne, privilégier xsane2tess à partir d'Xsane, ou, à défaut, gscan2pdf.

Bonnes reconnaissances !

Hors ligne

#386 Le 04/02/2010, à 08:50

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@Bushman02
Salut !
Et il n'y a aucun parasitage wink
J'essaye de répondre à la question 1 de jeanmichel78...
... et tu réponds à la question 2 : effectivement, en attendant que des interfaces graphiques intègrent Ocropus, la solution est celle d'un script et d'un lanceur, et la proposition d'Astre est bonne et simple.

@jeanmichel78
Pour finir (j'espère) de répondre à ta question 1, vérifie aussi que tu as bien installé le paquet tesseract-ocr-fra.
Mais bon... je ne pense pas que ce soit le problème. Si c'était le cas, après avoir fait

export tesslanguage=fra

tu aurais, lors du lancement d'ocroscript, le message d'erreur suivant :

Unable to load unicharset file /usr/share/tesseract-ocr/tessdata/fra.unicharset

Pour obtenir ton message d'erreur sur l'absence d'eng.unicharset, je ne vois donc qu'une solution, une petite erreur imperceptible dans la commande :
par exemple :
export tesslangage=fra
au lieu de
export tesslanguage=fra

Du coup, l'usage d'un script comme proposé par Bushman02 & Astre évite ce type de coquille.

Dernière modification par Sorbus (Le 04/02/2010, à 08:51)

Hors ligne

#387 Le 05/02/2010, à 10:45

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,
pour la reconnaissance manuscrite, avez-vous vu ça ? http://doc.ubuntu-fr.org/cellwriter

Hors ligne

#388 Le 05/02/2010, à 14:16

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je n'avais pas encore vu ça n'ayant jamais eu à utiliser la Roc manuscrite, mais j'ai été mis en appétit par les résultats spectaculaires de Zenigata. Merci de communiquer ce lien. À suivre...

Hors ligne

#389 Le 06/02/2010, à 09:26

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@ Hector,

Merci pour l'info. Je viens de tester cellwriter, en dessinant les lettres dans les cases prévues... Après un petit entrainement, ça marche assez bien. C'est donc un début de la RIC sous Linux. Mais il reste du chemin à faire : une lettre par case ou par cellule, ce n'est pas encore trop difficile... Lorsqu'il s'agit de reconnaître une écriture manuscrite en caractères liés... avec une écriture tordue, il faut que le logiciel repère lui-même où sont les lettres avant de les reconnaître (ou en même temps). C'est une autre paire de manches !

Pour reconnaitre un texte manuscrit scanné, cellwriter est en l'état inutilisable. Mais par curiosité, hormis la recherche et les premiers pas en vue d'une RIC plus performante, je me demande à quoi peut servir pour l'instant ce logiciel. Dans le menu, il apparaît dans "Applications > accès universel" : je me demande pour qui il peut être plus facile de dessiner les lettres dans une cellule plutôt que de les taper au clavier... ??? hmm

Dernière modification par Sorbus (Le 08/02/2010, à 16:40)

Hors ligne

#390 Le 07/02/2010, à 21:53

jeanmichel78

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir,
Merci Sorbus d'avoir regarder mon problème. Je pense que c'est résolu, J'ai fait la même manip (celle du wiki Ocropus) version 0.2 paquets deb sur mon portable et ça marche. Je vais revérifier sur mon desktop et comparer avec mon laptop.
Merci également à Bushman02 pour le script, je vais l'essayer, je ne suis pas un spécialiste dans ce type de manip mais si j'ai un problème je reviendrai.

Hors ligne

#391 Le 07/02/2010, à 22:22

Zenigata

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

hector a écrit :

Bonjour,
pour la reconnaissance manuscrite, avez-vous vu ça ? http://doc.ubuntu-fr.org/cellwriter

C'est intéressant, mais bon ça reste limité à reconnaître un caractère dans une case.

Hors ligne

#392 Le 11/02/2010, à 16:51

bewidia

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

je suis tombé sur ce fil et ce forum en cherchant des infos sur Tesseract que je n'arrive pas à faire fonctionner. Je profite du sujet pour poser mes questions, j'espère que ça ne dérange pas.

Dans un premier temps, j'essaie juste de reconnaitre le texte d'une image avec une simple commande, mais le fichier de sorti n'est nullement lisible (une suite de caractères sans queue ni tête)

II_C)l'”îl"I""| i[::~5L.|r··r·m <:I·
cirigg êlit- KI\l1..n
gravicja, Lxrrxëa se
r11..|IIEa t1..|r|::•iS r
!I‘~/Iaaêczêrxëns êrcz
Icnbczortis mec ris
<:c:•r15ê<:t€tL.:r Excl
ir·1t€r·<:IL.¤r··rm I@<:t1..|s
I"'lC)I"l- lIl)c:•r1@<: el

J'ai Ubuntu 9.10, j'ai installé Tesseract via le Synaptic avec la langue française.
J'ai crée une image dans Photoshop avec du texte bidon ("Lorem ipsum"), je l'ai enregistré en Tif sans compression

J'exécute Tesserac avec

tesseract toto.tif fichier -l fra

Quelqu'un voir de quoi ça peut venir ?
Par ailleurs, j'aimerais piloter Tesseract en lui donnant la zone à reconnaitre (sur une image comportant plusieurs textes), je peux faire ça ?

Merci !

Hors ligne

#393 Le 11/02/2010, à 17:52

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir,
Pourrais-tu nous donner accès à ton fichier Tif avec "texte bidon" te servant de fichier de test ? Par exemple en le mettant chez un hébergeur d'image et en nous indiquant le lien. Nous pourrions tester aussi.

Le texte est-il en noir sur fond blanc ou bien l'image comporte-t-elle des couleurs (texte ou fond... uni ou non) ?

Par ailleurs, nous avons déjà constaté ici que certains types de fichiers image (même en noir sur blanc) ne sont pas correctement reconnus par Tesseract lorsqu'il est installé par le paquet des dépôts officiels (ce qui est le cas lors d'une installation par Synaptic). Par contre, la ROC fonctionne sur ces fichiers lorsque Tesseract est installé par le paquet de "b52" (voir la documentation Ubuntu francophone sur Tesseract).

Pour vérifier, tu peux désinstaller Tesseract par Synpatic et installer le paquet Tesseract de "b52" correspondant à ton architecture (amd64 ou i 386). Puis tester à nouveau...

Dernière modification par Sorbus (Le 11/02/2010, à 18:06)

Hors ligne

#394 Le 11/02/2010, à 17:57

bewidia

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

voici le lien vers le fichier

http://img15.imageshack.us/img15/1421/totod.png

Je verrais pour désinstaller via le Synaptic et réinstaller le .deb demain.

Merci !

Hors ligne

#395 Le 11/02/2010, à 18:31

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@bewidia

Voici le résultat de la ROC chez moi, avec Tesseract 2.04 installé par le paquet de b52, et en utilisant la reconnaissance en italien (!) car en français, les "e" sont transformés en "a", je ne sais pourquoi.

Je n'ai pas fait en ligne de commande, mais j'ai utilisé gscan2pdf (importation de ton fichier png avec gscan2pdf, puis lancement de la ROC par tesseract en italien sur ce fichier) :

Lorem ipsum dolor sit amet, consectetur adipis—
cing elit. Nunc fermentum, nisi vel semper
gravida, urna sem tempor augue, ut ullamcorper
nulla turpis nec dolor Suspendisse potenti.
Maecenas eros arcu, rhoncus non tempor in,
Iobortis nec risus. Lorem ipsum dolor sit amet,
consectetur adipiscing elit. Suspendisse auctor
interdum Iectus, blandit vulputate Iigula tempus_
non. Donec elementum ultricies augue, vitae
scelerisque Iacus placerat vitae. Etiam congue
placerat risus, quis consequat dui scelerisque
feugiat. Etiam in elit libero, eu varius leo. Sed
sollicitudin venenatis feugiat. Sed id Iacinia est.

Dernière modification par Sorbus (Le 11/02/2010, à 19:22)

Hors ligne

#396 Le 11/02/2010, à 19:29

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Par ailleurs, j'aimerais piloter Tesseract en lui donnant la zone à reconnaitre (sur une image comportant plusieurs textes), je peux faire ça ?

J'avais oublié cette question. Si ton image est déjà scannée, je crois que la réponse est "non". Par contre, si tu scannes un texte avec xsane, tu peux dans l'aperçu encadrer la zone sur laquelle tu veux effectuer la ROC, et lancer le scan en sortie texte, en configurant xsane pour qu'il utilise pour la ROC xsane2tess et Tesseract.

Pour une image comportant plusieurs zones de texte, il faut en sélectionner d'abord une dans l'aperçu, lancer le scan, puis en sélectionner une autre, lancer le scan et ainsi de suite.

Dernière modification par Sorbus (Le 11/02/2010, à 19:31)

Hors ligne

#397 Le 11/02/2010, à 19:30

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je confirme après deux essais : le tesseract de Synaptic (2.03) ne donne rien sur ce texte-là, qu'on utilise le français ou l'italien.
En revanche, le paquet .deb de B52 est très performant : j'obtiens (dans gscan2pdf) la même chose que Sorbus avec l'italien (jusques et y compris le "_" de la ligne 8 !).
Pour ma part, en utilisant le français, la mécanique n'achoppe que sur le mot "dolor" (respectivement "d©|©r " et "d0|0r") : le reste est aussi bien reconnu qu'avec l'italien.
À bientôt.

P.S. : le tout sous Karmic 64 bits.

Dernière modification par Bushman02 (Le 11/02/2010, à 19:33)

Hors ligne

#398 Le 11/02/2010, à 20:23

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Information: OCRopus ne fonctionne plus après modification de tesseract 2.03 en 2.04, c'est-à-dire après installation du paquet de B52 à la place de celui des dépôts (ce qui est assez logique).
J'ai tenté de reprendre en main ocropus en me servant des paquets fournis par la doc., mais ils ne s'installent pas correctement : ce sont visiblement les mêmes que dans les dépôts et, si je reviens dans synaptic, il signale alors que le paquet tesseract.deu est cassé...
Rien de grave mais l'info peut être utile.

Hors ligne

#399 Le 11/02/2010, à 22:21

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Oui, il y a incompatibilité entre les paquets de "b52" et ceux des dépôts (= ceux des liens de la partie "par le gestionnaire de paquets" de la doc = ceux de Synaptic). Il est très facile de passer de l'un à l'autre (les désinstallations et installations étant rapides), mais il faut toujours procéder dans l'ordre :

1°) désinstaller Tesseract (des dépôts ou de "b52") via Synaptic,
Et seulement ceci fait :
2°) installer Tesseract (des dépôts via Synaptic ou de "b52" via GDebi).

Très important : si on installe Tesseract par la paquet de "b52", il ne faut installer aucun paquet de langue des dépôts via Synaptic, car le paquet de "b52" inclut toutes les langues disponibles.
Par contre, si on installe Tesseract par Synaptic, un seul paquet de langue est automatiquement installé avec : celui de l'allemand "tesseract-ocr-deu"... Pour disposer des autres langues, il faut cocher les paquets supplémentaires voulus, comme "tesseract-ocr-fra" pour le français.

Concernant Ocropus : il ne fonctionne (hélas) qu'avec les paquets des dépôts.
J'ai signalé à plusieurs reprises aux amis anglophones (sur la liste de Tesseract et par courriel au développeur de gscan2pdf) les problèmes rencontrés par le Tesseract des dépôts sur certains fichiers images... Mais je ne les ai pas encore convaincus... En fait, "b52" a compilé Tesseract un peu différemment et avec une très légère modification du code pour que la ROC fonctionne sur tous les types de fichiers. Nous espérions que le patch de "b52" soit pris en compte un jour ou l'autre dans les paquets officiels... mais je ne vois rien venir.

En attendant, l'alternative possible serait de rendre le Tesseract de "b52" compatible avec Ocropus. Il se peut que ce soit simple à faire... si cela provient seulement du nom du paquet... celui de "b52" se nomme "tesseract" alors que celui des dépôts se nomme "tesseract-ocr"... Or dans les dépendances d'Ocropus, il doit être mentionné "tesseract-ocr". J'essaye de voir ça dans les temps qui viennent avec "b52" wink

Dernière modification par Sorbus (Le 11/02/2010, à 22:32)

Hors ligne

#400 Le 12/02/2010, à 08:47

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour Sorbus et merci de tes précisions qui me permettent d'être sûr de ce que j'avais cru comprendre !
Si le Tesseract de B52 peut devenir compatible avec Ocropus, tant mieux mais, comme tu le dis, désinstallation et réinstallation sont très faciles à effectuer en cas de besoin.

Hors ligne