Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus · Le 29/05/2009, à 14:58

$ ocroscript align sortie.html > sortie2.html
la dernière commande débouche, comme les autres, sur un fichier vide ne contenant qu'une ligne : "Usage : align" suivie d'une petite fenêtre où l'on peut écrire (mais quoi ?) puisque si je pointe sur cette fenêtre, mon curseur y clignote.

J'ai obtenu le même résultat, avec la même interrogation... je note seulement que cette ligne "Usage : align" suivie d'une zone de saisie ne correspond à rien d'autre que le message que tu avais dans le terminal : "Usage: align <input hocr> <output dir>"... Nous ne sommes pas plus avancés, et j'atteins moi aussi mon seuil d'incompétence.

Il n'est peut-être pas utile pour l'instant de rechercher davantage l'usage de ces diverses commandes (on en saurait éventuellement plus en éditant ces scripts avec un éditeur de texte... en essayant de comprendre les lignes de commentaires en bleu... voire le reste...). J'ai regardé si le script "rec-tess" utilisait une commande avec "align"... Non. Nous n'irons donc sans doute pas plus loin pour l'instant. Mais en décortiquant un peu tout ça, et en le laissant disponible dans ce fil, nous aurons peut-être préparé le terrain à des regards et avis plus compétents

P.S. Je viens de tester "line-clean", comme suit :

ocroscript  line-clean  essai.png  essai_clean.png

J'obtiens un nouveau fichier "essai_clean.png"... effectivement "nettoyé"... mais un peu trop : les lignes du haut et du bas sont supprimées... ainsi qu'un point sur un "i" et la virgule d'un point-virgule. Cette commande a un effet indiscutable, mais pas très bénéfique, du moins pour le fichier png sur lequel je l'ai testée.

Dernière modification par Sorbus (Le 29/05/2009, à 16:05)

Yannig · Le 11/06/2009, à 22:39

Bonsoir
Tout d'abord merci pour votre gros travail fait!
Je viens d'installer ce logiciel et le résultat est assez probant pour moi avec un bémol de taille mais il est probable que ce soit l'original qui est mauvais car je n'ai pas les retours à la ligne.

Un hic je n'ai pas pu installer listdc++6 qui semble introuvable !?
Si certains veulent voir mes quatre fichiers originaux je peux les mettre à disposition dans un lieu que l'on voudra bien m'indiquer.

Amitiés
--
Yannick VOYEAUD

Bushman02 · Le 15/06/2009, à 23:08

Je réponds entre deux voyages...
Pas de retour à la ligne : c'est là un des problèmes que pose Ocropus. Nous avons tenté de tester différents ocroscripts qui auraient dû aboutir à des résultats... mais, comme le montrent les échanges ci-dessus, nos essais n'ont rien donné.

Pour répondre à ta question, listdc++6 peut être téléchargé en se rendant d'abord sur la page .deb d'Ubuntu-Karmic, (mais il ne peut s'installer sur ma machine pour l'instant.)

Je soupçonne Sorbus, initiateur avisé de ce fil, d'être, lui aussi, en vacances ou en voyage... À son retour, je pense qu'il te donnera de plus amples précisions si besoin est !

À bientôt.

Yannig · Le 16/06/2009, à 00:36

Bushman02 a écrit :

Je réponds entre deux voyages...
Pas de retour à la ligne : c'est là un des problèmes que pose Ocropus. Nous avons tenté de tester différents ocroscripts qui auraient dû aboutir à des résultats... mais, comme le montrent les échanges ci-dessus, nos essais n'ont rien donné.

Bon je suis rassuré de ce coté là!
Toutefois le principal étant que la reconnaissance OCR (texte) est quasi parfaite on peut souffrir un peu

Bushman02 a écrit :

Pour répondre à ta question, listdc++6 peut être téléchargé en se rendant d'abord sur la page .deb d'Ubuntu-Karmic, (mais il ne peut s'installer sur ma machine pour l'instant.)

404

Bushman02 a écrit :

Je soupçonne Sorbus, initiateur avisé de ce fil, d'être, lui aussi, en vacances ou en voyage... À son retour, je pense qu'il te donnera de plus amples précisions si besoin est !
À bientôt.

Hé bien je vais attendre son retour sur la planète net.

Amitiés et merci

Sorbus · Le 21/06/2009, à 00:36

Je suis par là. Non... Pas parti. Mais un peu à la bourre ces temps-ci. J'espère pouvoir étudier de plus près ces questions, sinon dans les jours qui viennent, dans le début de juillet... Mais je n'ai pas a priori de solution

Bushman02 · Le 21/06/2009, à 23:36

Un salut, au passage, à Sorbus.

Pour Yannig :
désolé, je n'avais pas compris ton "404" ! C'est seulement ce soir, en repassant par cette page que j'ai constaté que mon lien ne menait nulle part. J'essaie de faire mieux : voici la page dont tu as besoin pour installer le paquet que tu cherches :
http://packages.ubuntu.com/karmic/ocropus
Tu voudras bien m'excuser.

didli · Le 06/08/2009, à 18:03

Quelques mots sur la ROC sous Jaunty :
Je n'ai pas lu le fil, et je ne suis pas sûr de poster dans le topic adéquat. Mais je viens d'être totalement bluffé par l'association du deb tesseract de b52 (une vraie bombe, si si j'ose le dire) et de gscan2pdf.
Honnêtement je ne m'attendais pas à d'aussi bons résultats, jugez plutôt cette image avec quand même pas mal de symboles/signes à reconnaître, et le texte obtenu :
http://www.mediaklan.com/work/wip/ROC.png
A l'origine, j'ai scanné (225 DPI et en couleurs, parce que je voulais au départ les images des produits...) un catalogue de produits electroménager, et enregistré les pages en PNG. J'ai utilisé ensuite un des filtres de Gimp (david's batch processor) pour le traitement par lot de la conversion en tif non compressé et en mode de gris. Puis j'ai lancé gscan2pdf, en selectionnant et découpant les textes, puis en lançant la ROC là dessus.
Bigrement efficace je trouve. Un grand merci à toutes les personnes qui s'occupent de ce topic, à b52 et au(x) créateur(s) de gscan2pdf !

Dernière modification par didli (Le 06/08/2009, à 18:05)

Sorbus · Le 06/08/2009, à 21:19

Bonjour didli,

Tu es dans le bon topic. Merci pour le retour. L'expérience est intéressante et l'exemple parlant...

Concernant les messages précédents... Désolé, je n'ai toujours pas eu le temps de me replonger dans Ocropus pour tenter de répondre à Yannig... J'y reviendrai sans doute, mais pas tout de suite...

mikedafunk · Le 06/08/2009, à 21:56

C'est excellent, ça donne envie de scanner tout ce qui passe

red_hat · Le 19/08/2009, à 18:11

bonjour ,
j'ai installer tesseract ça marche bien mais le problème ce que quand j'ai scanner une image qui contient des ligne de texte le résultat n'est pas satisfaite alors est ce que quelqu'un peux m'aider
merci d'avance

red_hat · Le 19/08/2009, à 18:12

voici ce qu'il ma donner comme résultat :

ÃIIIIIZ ...... ·4.;;;2a2¤||n, ""|Ii¤..·""iu|x::::|¤¤¤- ziiii. ·¤¤|1:22::::· ·¤m:::iIIII,1|||...:||||, ::
III ..... " azëëîlu 5!;;;]|| llziiu ¤¤:;:iII uzzzu :¤2aa:· II·'·m ·1::::¤~ |r'·|r*·u |r'*|r'·u uzzzu :12
llIIIIIIlIll!EEÉiÃlllilîlllllllllïllllun u|llIIlYl|l|îTw« M
  ~ W, ~~wuM\Ãi\
H1" «· ww '‘‘‘‘‘ î“‘f!""“Hu ` 1
HMHUIIIIHW  ' · · ····· *·   Ãl  5
lmmmmmmmmlü (gt C

red_hat · Le 19/08/2009, à 18:13

svp j'ai vrément besoin de votre aide

thom83 · Le 21/08/2009, à 18:17

Bonsoir,
Peut-être relire ce fil à partir du #306 (page 13), voire remonter un peu plus haut.
À partir de quoi la reconnaissance ne fonctionne-t-elle pas ? Un fichier image existant, un scan avec xsane, avec quel version d'Ubuntu ? La question posée avant-hier est un peu succinte ... et le sujet, vaste.

red_hat · Le 27/08/2009, à 12:10

bonjour sorbus
je suis sous ubuntu ,j'ai installer gscan2pdf j'importe une image .tif mais la numérisation n'est pas satisfaite,ce que je voudrais savoir est ce que vous pouvez m'orienter .
1/ le logiciel que je doit télécharger?
2/la démarche a suivre pour atiendre le resultat?
merci infiniment

Bushman02 · Le 28/08/2009, à 12:07

Quelle est ta version d'Ubuntu ? Précise-le, s'il te plaît, dans un prochain post.

As-tu installé gscan2pdf et tesseract sur ta machine ? Si c'est le cas, tout devrait fonctionner.

Une solution simple à beaucoup de problèmes (en plus des pages de ce fil indiquées par thom83) : la page de la documentation d'Ubuntu. Voici le lien :
http://doc.ubuntu-fr.org/gscan2pdf

P.S. : n'oublie pas que gscan2pdf + tesseract ne fonctionnent que sur des textes ne comportant qu'une colonne...

red_hat · Le 02/09/2009, à 11:34

bonjour,
je suis sous ubunto 9 ,j'ai bien installer gscan2pdf et tesseract mais toujours ça marche pas
est ce que quelqu'un peux m'indique une autre solution
merci d'avance

Sorbus · Le 06/09/2009, à 11:54

C'est quoi "ubunto 9" ?
Tu veux dire Ubuntu Jaunty 9.04 ?
Peux-tu nous écrire un peu précisément :
- comment tu as installé gscan2pdf et tesseract (par Synaptic ? par le deb de b52 ? autrement ?). Quelles versions de gscan2pdf et de tesseract as-tu installé ?
- comment tu procèdes ensuite exactement pour essayer de faire de l'OCR ?
- sur quel type de document tu essayes de faire de la reconnaissance optique de caractères : manuscrit ? tapé à la machine ? à l'ordinateur ? couleur ? noir et blanc ? avec ou sans image dans la texte ? texte avec mise en page simple ou complexe ? Le document est-il un document image déjà numérisé, ou bien est-ce que tu pars d'un document papier que tu scannes d'abord pour pouvoir faire de l'OCR ?

Nous ne pouvons abandonner la solution gscan2pdf+tesseract sans un minimum de précisions. Ni d'ailleurs proposer une autre solution.

A propos d'autres solutions, tu peux chercher dans la doc :
http://doc.ubuntu-fr.org/ocr
regardes notamment la solution xsane+xsane2tess+tesseract...
et n'hésite pas à revenir ici si tu ne comprends pas quelque chose...
(mais essaye d'être précis ;-) )

Dernière modification par Sorbus (Le 06/09/2009, à 12:01)

Zenigata · Le 19/10/2009, à 22:13

Bonsoir,

Je n'ai pas tout lu dans ce fil, mais j'ai vu le nom de MyScript Notes cité. Et il est vrai que j'ai plutôt été bluffé par ce logiciel, propriétaire, malheureusement, windows uniquement, encore plus malheureusement, et pire que tout : qui ne marche pas sous wine...

Ce logiciel permet très simplement de reconnaître une écriture manuscrite attachée (pas besoin de faire du script), et ce avec un taux de réussite assez étonnant, avec bien sûr en plus une possibilité d'adaptativité pour apprendre l'écriture de l'utilisateur.

Bref, je suis à la recherche d'un logiciel d'aussi bonne facture, mais libre et qui tourne sous linux.

Sinou est-ce que d'aventure certains d'entre vous connaîtraient le format .ELI, qui est le format par défaut de sauvegarde des fichiers par le ZPEN de dane-elec ? En effet le logiciel miracle que je cherche devrait idéalement savoir lire ces fichiers...

Bonne soirée

zarer · Le 19/10/2009, à 22:40

En gros, tu veux la vache, le beurre, l'argent du beurre et le sourire de la crémière... Au fait, il y a combien de temps que tu es sous GNU/Linux ?

Zenigata · Le 19/10/2009, à 22:44

Bah oui, il y a tellement de logiciels libre qui marchent sous linux qui sont presque parfaits, que lorsqu'il y a un domaine avec un manque, ça fait bizarre.

Et je suis sous GNU/Linux depuis 4-5 ans, et je ne vois pas le rapport avec ma question.

zarer · Le 19/10/2009, à 23:01

C'est juste que je trouvais la demande un peu verte !

Zenigata · Le 31/10/2009, à 23:24

Bon en fait en donnant à wine la dll native ça marche !

Vive la reconnaissance d'écriture manuscrite (et pourtant j'écris mal) !

Bon par contre c'est proprio...

astre · Le 20/01/2010, à 23:18

Bonjour.
Moi je trouve OCRopus pas mal du tout. Je l'ai installé à partir de Synaptic (je suis sous Ubuntu Karmic Koala). Apparemment, il m'a mis tout ce qu'il faut avec.

Je me suis mis sur un fichier texte :

#!/bin/bash

export tesslanguage=fra
cd ~/Bureau
ocroscript rec-tess 0cr.png > 0cr.html

J'ai rendu ça exécutable en suivant des indications du forum que j'ai maintenant oubliées et j'ai fait un lanceur qui me lance (beh oui !) ce truc.

Maintenant, je scanne (avec mes préférences par défaut : couleur, 300dpi), j'enregistre sur le bureau sous le nom 0cr.png et je lance mon lanceur.
Sur le bureau, un fichier 0cr.html apparaît peu à peu. Quand sur l'icône l'image de la terre se transforme en texte commençant par <DOC PUB, c'est bon. J'ai mon texte reconnu. Manquent un peu les alinéas, il y a quelque "I" à la place de quelques "l", mais c'est vite corrigé sur OpenOffice.
C'est pour moi meilleur que les autres OCR.
Les paragraphes et les colonnes ne semblent pas apparaître mais ils sont logiquement reconnus et le texte est cohérent et dans l'ordre.
Bravo à ceux qui ont mis ça au point.

Dernière modification par astre (Le 20/01/2010, à 23:22)

Bushman02 · Le 21/01/2010, à 11:00

D'accord pour ce qui est des mises en page avec colonnes : OCRopus n'est pas mal du tout. En revanche, pour une page à une seule colonne, les résultats sont plus rapides avec Xsane2tess, puisque tout s'effectue en une seule opération : le texte scanné par Xsane sort sous forme reconnue au format .txt
Pour ce qui est des alinéas, il reste encore quelques travaux de mise au point à effectuer. Sorbus, qui est l'initiateur de ce fil et qui y a beaucoup travaillé, avait tenté de résoudre les problèmes au printemps dernier. J'avais essayé de l'aider... avec mes moyens (limités !). Nous n'avions pas obtenu de résultats (voir ci-dessus)

P.S. :
Si tu ajoutes à ton script la ligne :

oowriter 0cr.html

le texte reconnu s'ouvre directement dans Open Office et tu peux peaufiner sur-le-champ.

P.S.2 :
J'ai essayé de bricoler un script qui lance Xsane et démarre immédiatement la reconnaissance... mais j'ai quelques problèmes : il ne fonctionne qu'avec la zone de saisie maximale du scanner, ce qui multiplie les caractères parasites à cause des bords de l'image (dans le cas d'une revue par exemple).

Bonnes reconnaissances !

astre · Le 21/01/2010, à 22:53

Merci ! Ça marche super.
En plus tu me fais réaliser que j'ai su faire un "script" ; je suis fier de moi .
Encore merci.

Dernière modification par astre (Le 21/01/2010, à 22:55)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#351 Le 29/05/2009, à 14:58

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#352 Le 11/06/2009, à 22:39

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#353 Le 15/06/2009, à 23:08

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#354 Le 16/06/2009, à 00:36

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#355 Le 21/06/2009, à 00:36

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#356 Le 21/06/2009, à 23:36

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#357 Le 06/08/2009, à 18:03

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#358 Le 06/08/2009, à 21:19

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#359 Le 06/08/2009, à 21:56

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#360 Le 19/08/2009, à 18:11

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#361 Le 19/08/2009, à 18:12

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#362 Le 19/08/2009, à 18:13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#363 Le 21/08/2009, à 18:17

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#364 Le 27/08/2009, à 12:10

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#365 Le 28/08/2009, à 12:07

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#366 Le 02/09/2009, à 11:34

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#367 Le 06/09/2009, à 11:54

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#368 Le 19/10/2009, à 22:13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#369 Le 19/10/2009, à 22:40

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#370 Le 19/10/2009, à 22:44

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#371 Le 19/10/2009, à 23:01

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#372 Le 31/10/2009, à 23:24

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#373 Le 20/01/2010, à 23:18

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#374 Le 21/01/2010, à 11:00

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

#375 Le 21/01/2010, à 22:53

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pied de page des forums