Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#351 Le 29/05/2009, à 13:58

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

$ ocroscript align sortie.html > sortie2.html
la dernière commande débouche, comme les autres, sur un fichier vide ne contenant qu'une ligne : "Usage : align" suivie d'une petite fenêtre où l'on peut écrire (mais quoi ?) puisque si je pointe sur cette fenêtre, mon curseur y clignote.

J'ai obtenu le même résultat, avec la même interrogation... je note seulement que cette ligne "Usage : align" suivie d'une zone de saisie ne correspond à rien d'autre que le message que tu avais dans le terminal : "Usage: align <input hocr> <output dir>"... Nous ne sommes pas plus avancés, et j'atteins moi aussi mon seuil d'incompétence.

Il n'est peut-être pas utile pour l'instant de rechercher davantage l'usage de ces diverses commandes (on en saurait éventuellement plus en éditant ces scripts avec un éditeur de texte... en essayant de comprendre les lignes de commentaires en bleu... voire le reste...). J'ai regardé si le script "rec-tess" utilisait une commande avec "align"... Non. Nous n'irons donc sans doute pas plus loin pour l'instant. Mais en décortiquant un peu tout ça, et en le laissant disponible dans ce fil, nous aurons peut-être préparé le terrain à des regards et avis plus compétents tongue

P.S. Je viens de tester "line-clean", comme suit :

ocroscript  line-clean  essai.png  essai_clean.png

J'obtiens un nouveau fichier "essai_clean.png"... effectivement "nettoyé"... mais un peu trop : les lignes du haut et du bas sont supprimées... ainsi qu'un point sur un "i" et la virgule d'un point-virgule. Cette commande a un effet indiscutable, mais pas très bénéfique, du moins pour le fichier png sur lequel je l'ai testée.

Dernière modification par Sorbus (Le 29/05/2009, à 15:05)

Hors ligne

#352 Le 11/06/2009, à 21:39

Yannig

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir
Tout d'abord merci pour votre gros travail fait!
Je viens d'installer ce logiciel et le résultat est assez probant pour moi avec un bémol de taille mais il est probable que ce soit l'original qui est mauvais car je n'ai pas les retours à la ligne.

Un hic je n'ai pas pu installer listdc++6 qui semble introuvable !?
Si certains veulent voir mes quatre fichiers originaux je peux les mettre à disposition dans un lieu que l'on voudra bien m'indiquer.

Amitiés
--
Yannick VOYEAUD

Hors ligne

#353 Le 15/06/2009, à 22:08

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je réponds entre deux voyages...
Pas de retour à la ligne : c'est là un des problèmes que pose Ocropus. Nous avons tenté de tester différents ocroscripts qui auraient dû aboutir à des résultats... mais, comme le montrent les échanges ci-dessus, nos essais n'ont rien donné.

Pour répondre à ta question, listdc++6 peut être téléchargé en se rendant d'abord sur la page .deb d'Ubuntu-Karmic, (mais il ne peut s'installer sur ma machine pour l'instant.)

Je soupçonne Sorbus, initiateur avisé de ce fil, d'être, lui aussi, en vacances ou en voyage... À son retour, je pense qu'il te donnera de plus amples précisions si besoin est !

À bientôt.

Hors ligne

#354 Le 15/06/2009, à 23:36

Yannig

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bushman02 a écrit :

Je réponds entre deux voyages...
Pas de retour à la ligne : c'est là un des problèmes que pose Ocropus. Nous avons tenté de tester différents ocroscripts qui auraient dû aboutir à des résultats... mais, comme le montrent les échanges ci-dessus, nos essais n'ont rien donné.

Bon je suis rassuré de ce coté là!
Toutefois le principal étant que la reconnaissance OCR (texte) est quasi parfaite on peut souffrir un peu

Bushman02 a écrit :

Pour répondre à ta question, listdc++6 peut être téléchargé en se rendant d'abord sur la page .deb d'Ubuntu-Karmic, (mais il ne peut s'installer sur ma machine pour l'instant.)

404

Bushman02 a écrit :

Je soupçonne Sorbus, initiateur avisé de ce fil, d'être, lui aussi, en vacances ou en voyage... À son retour, je pense qu'il te donnera de plus amples précisions si besoin est !

À bientôt.

Hé bien je vais attendre son retour sur la planète net.

Amitiés et merci

Hors ligne

#355 Le 20/06/2009, à 23:36

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je suis par là. Non... Pas parti. Mais un peu à la bourre ces temps-ci. J'espère pouvoir étudier de plus près ces questions, sinon dans les jours qui viennent, dans le début de juillet... Mais je n'ai pas a priori de solution tongue

Hors ligne

#356 Le 21/06/2009, à 22:36

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Un salut, au passage, à Sorbus.

Pour Yannig :
désolé, je n'avais pas compris ton "404" ! C'est seulement ce soir, en repassant par cette page que j'ai constaté que mon lien ne menait nulle part. J'essaie de faire mieux : voici la page dont tu as besoin pour installer le paquet que tu cherches :
http://packages.ubuntu.com/karmic/ocropus
Tu voudras bien m'excuser.

Hors ligne

#357 Le 06/08/2009, à 17:03

didli

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Quelques mots sur la ROC sous Jaunty :
Je n'ai pas lu le fil, et je ne suis pas sûr de poster dans le topic adéquat. Mais je viens d'être totalement bluffé par l'association du deb tesseract de b52 (une vraie bombe, si si j'ose le dire) et de gscan2pdf.
Honnêtement je ne m'attendais pas à d'aussi bons résultats, jugez plutôt cette image avec quand même pas mal de symboles/signes à reconnaître, et le texte obtenu :
http://www.mediaklan.com/work/wip/ROC.png
A l'origine, j'ai scanné (225 DPI et en couleurs, parce que je voulais au départ les images des produits...) un catalogue de produits electroménager, et enregistré les pages en PNG. J'ai utilisé ensuite un des filtres de Gimp (david's batch processor) pour le traitement par lot de la conversion en tif non compressé et en mode de gris. Puis j'ai lancé gscan2pdf, en selectionnant et découpant les textes, puis en lançant la ROC là dessus.
Bigrement efficace je trouve. Un grand merci à toutes les personnes qui s'occupent de ce topic, à b52 et au(x) créateur(s) de gscan2pdf !

Dernière modification par didli (Le 06/08/2009, à 17:05)


Plan B : réessayer le Plan A jusqu'à ce qu'il fonctionne.
http://www.mediaklan.com/

Hors ligne

#358 Le 06/08/2009, à 20:19

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour didli,

Tu es dans le bon topic. Merci pour le retour. L'expérience est intéressante et l'exemple parlant...

Concernant les messages précédents... Désolé, je n'ai toujours pas eu le temps de me replonger dans Ocropus pour tenter de répondre à Yannig... J'y reviendrai sans doute, mais pas tout de suite...

Hors ligne

#359 Le 06/08/2009, à 20:56

mikedafunk

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

C'est excellent, ça donne envie de scanner tout ce qui passe wink


Lubuntu 22.04 sur Lenovo AX81 et pas mal d'Amiga
Mon blog : http://mikedafunk.over-blog.org

Hors ligne

#360 Le 19/08/2009, à 17:11

red_hat

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

bonjour ,
j'ai installer tesseract ça marche bien mais le problème ce que quand j'ai scanner une image qui contient des ligne de texte le résultat n'est pas satisfaite alors est ce que quelqu'un peux m'aider
merci d'avance

Hors ligne

#361 Le 19/08/2009, à 17:12

red_hat

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

voici ce qu'il ma donner comme résultat :

ÃIIIIIZ ...... ·4.;;;2a2¤||n, ""|Ii¤..·""iu|x::::|¤¤¤- ziiii. ·¤¤|1:22::::· ·¤m:::iIIII,1|||...:||||, ::
III ..... " azëëîlu 5!;;;]|| llziiu ¤¤:;:iII uzzzu :¤2aa:· II·'·m ·1::::¤~ |r'·|r*·u |r'*|r'·u uzzzu :12
llIIIIIIlIll!EEÉiÃlllilîlllllllllïllllun u|llIIlYl|l|îTw« M
  ~ W, ~~wuM\Ãi\
H1" «· ww '‘‘‘‘‘ î“‘f!""“Hu ` 1
HMHUIIIIHW  ' · · ····· *·   Ãl  5
lmmmmmmmmlü (gt C

Hors ligne

#362 Le 19/08/2009, à 17:13

red_hat

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

svp j'ai vrément besoin de votre aide

Hors ligne

#363 Le 21/08/2009, à 17:17

thom83

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir,
Peut-être relire ce fil à partir du #306 (page 13), voire remonter un peu plus haut.
À partir de quoi la reconnaissance ne fonctionne-t-elle pas ? Un fichier image existant, un scan avec xsane, avec quel version d'Ubuntu ? La question posée avant-hier est un peu succinte ... et le sujet, vaste.

Hors ligne

#364 Le 27/08/2009, à 11:10

red_hat

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

bonjour sorbus
je  suis sous ubuntu ,j'ai installer gscan2pdf j'importe une image  .tif mais la numérisation n'est pas satisfaite,ce que je voudrais savoir est ce que vous pouvez m'orienter .
1/ le logiciel que je doit télécharger?
2/la démarche a suivre pour atiendre le resultat?
merci infiniment

Hors ligne

#365 Le 28/08/2009, à 11:07

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Quelle est ta version d'Ubuntu ? Précise-le, s'il te plaît, dans un prochain post.

As-tu installé gscan2pdf et tesseract sur ta machine ? Si c'est le cas, tout devrait fonctionner.

Une solution simple à beaucoup de problèmes (en plus des pages de ce fil indiquées par thom83) : la page de la documentation d'Ubuntu. Voici le lien : 
http://doc.ubuntu-fr.org/gscan2pdf

P.S. : n'oublie pas que gscan2pdf + tesseract ne fonctionnent que sur des textes ne comportant qu'une colonne...

Hors ligne

#366 Le 02/09/2009, à 10:34

red_hat

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

bonjour,
je suis sous ubunto 9 ,j'ai bien installer gscan2pdf et tesseract mais toujours ça marche pas
est ce que quelqu'un peux m'indique une autre solution
merci d'avance

Hors ligne

#367 Le 06/09/2009, à 10:54

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

C'est quoi "ubunto 9" ?
Tu veux dire Ubuntu Jaunty 9.04 ?
Peux-tu nous écrire un peu précisément :
- comment tu as installé gscan2pdf et tesseract (par Synaptic ? par le deb de b52 ? autrement ?). Quelles versions de gscan2pdf et de tesseract as-tu installé ?
- comment tu procèdes ensuite exactement pour essayer de faire de l'OCR ?
- sur quel type de document tu essayes de faire de la reconnaissance optique de caractères : manuscrit ? tapé à la machine ? à l'ordinateur ? couleur ? noir et blanc ? avec ou sans image dans la texte ? texte avec mise en page simple ou complexe ? Le document est-il un document image déjà numérisé, ou bien est-ce que tu pars d'un document papier que tu scannes d'abord pour pouvoir faire de l'OCR ?

Nous ne pouvons abandonner la solution gscan2pdf+tesseract sans un minimum de précisions. Ni d'ailleurs proposer une autre solution.

A propos d'autres solutions, tu peux chercher dans la doc :
http://doc.ubuntu-fr.org/ocr
regardes notamment la solution xsane+xsane2tess+tesseract...
et n'hésite pas à revenir ici si tu ne comprends pas quelque chose...
(mais essaye d'être précis ;-) )

Dernière modification par Sorbus (Le 06/09/2009, à 11:01)

Hors ligne

#368 Le 19/10/2009, à 21:13

Zenigata

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir,

   Je n'ai pas tout lu dans ce fil, mais j'ai vu le nom de MyScript Notes cité. Et il est vrai que j'ai plutôt été bluffé par ce logiciel, propriétaire, malheureusement, windows uniquement, encore plus malheureusement, et pire que tout : qui ne marche pas sous wine...

Ce logiciel permet très simplement de reconnaître une écriture manuscrite attachée (pas besoin de faire du script), et ce avec un taux de réussite assez étonnant, avec bien sûr en plus une possibilité d'adaptativité pour apprendre l'écriture de l'utilisateur.

Bref, je suis à la recherche d'un logiciel d'aussi bonne facture, mais libre et qui tourne sous linux.

Sinou est-ce que d'aventure certains d'entre vous connaîtraient le format .ELI, qui est le format par défaut de sauvegarde des fichiers par le ZPEN de dane-elec ? En effet le logiciel miracle que je cherche devrait idéalement savoir lire ces fichiers...

Bonne soirée

Hors ligne

#369 Le 19/10/2009, à 21:40

zarer

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

En gros, tu veux la vache, le beurre, l'argent du beurre et le sourire de la crémière... Au fait, il y a combien de temps que tu es sous GNU/Linux ?


Il existe dix sortes de gens : ceux qui comprennent le système binaire et les autres.
Carnet de route : Road2Mayotte.
Linux On The Root a rejoint la TuxFamily !
--> Debian + FreeBSD = Debian GNU/kFreeBSD

Hors ligne

#370 Le 19/10/2009, à 21:44

Zenigata

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bah oui, il y a tellement de logiciels libre qui marchent sous linux qui sont presque parfaits, que lorsqu'il y a un domaine avec un manque, ça fait bizarre.

Et je suis sous GNU/Linux depuis 4-5 ans, et je ne vois pas le rapport avec ma question.

Hors ligne

#371 Le 19/10/2009, à 22:01

zarer

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

C'est juste que je trouvais la demande un peu verte ! roll


Il existe dix sortes de gens : ceux qui comprennent le système binaire et les autres.
Carnet de route : Road2Mayotte.
Linux On The Root a rejoint la TuxFamily !
--> Debian + FreeBSD = Debian GNU/kFreeBSD

Hors ligne

#372 Le 31/10/2009, à 22:24

Zenigata

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bon en fait en donnant à wine la dll native ça marche !

Vive la reconnaissance d'écriture manuscrite (et pourtant j'écris mal) !

Bon par contre c'est proprio...

Hors ligne

#373 Le 20/01/2010, à 22:18

astre

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour.
Moi je trouve OCRopus pas mal du tout. Je l'ai installé à partir de Synaptic (je suis sous Ubuntu Karmic Koala). Apparemment, il m'a mis tout ce qu'il faut avec.

Je me suis mis sur un fichier texte :

#!/bin/bash

export tesslanguage=fra
cd ~/Bureau
ocroscript rec-tess 0cr.png > 0cr.html

J'ai rendu ça exécutable en suivant des indications du forum que j'ai maintenant oubliées et j'ai fait un lanceur qui me lance (beh oui !) ce truc.

Maintenant, je scanne (avec mes préférences par défaut : couleur, 300dpi), j'enregistre sur le bureau sous le nom 0cr.png et je lance mon lanceur.
Sur le bureau, un fichier 0cr.html apparaît peu à peu. Quand sur l'icône l'image de la terre se transforme en texte commençant par <DOC PUB, c'est bon. J'ai mon texte reconnu. Manquent un peu les alinéas, il y a quelque "I" à la place de quelques "l", mais c'est vite corrigé sur OpenOffice.
C'est pour moi meilleur que les autres OCR.
Les paragraphes et les colonnes ne semblent pas apparaître mais ils sont logiquement reconnus et le texte est cohérent et dans l'ordre.
Bravo à ceux qui ont mis ça au point.

Dernière modification par astre (Le 20/01/2010, à 22:22)


Michel ASTRE
Poèmes et chansons pour les cinq saisons
https://astre.legtux.org/sitepo/portail.htm

Hors ligne

#374 Le 21/01/2010, à 10:00

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

D'accord pour ce qui est des mises en page avec colonnes : OCRopus n'est pas mal du tout. En revanche, pour une page à une seule colonne, les résultats sont plus rapides avec Xsane2tess, puisque tout s'effectue en une seule opération : le texte scanné par Xsane sort sous forme reconnue au format .txt
Pour ce qui est des alinéas, il reste encore quelques travaux de mise au point à effectuer. Sorbus, qui est l'initiateur de ce fil et qui y a beaucoup travaillé, avait tenté de résoudre les problèmes au printemps dernier. J'avais essayé de l'aider... avec mes moyens (limités !). Nous n'avions pas obtenu de résultats (voir ci-dessus)

P.S. :
Si tu ajoutes à ton script la ligne :

oowriter 0cr.html

le texte reconnu s'ouvre directement dans Open Office et tu peux peaufiner sur-le-champ.

P.S.2 :
J'ai essayé de bricoler un script qui lance Xsane et démarre immédiatement la reconnaissance... mais j'ai quelques problèmes : il ne fonctionne qu'avec la zone de saisie maximale du scanner, ce qui multiplie les caractères parasites à cause des bords de l'image (dans le cas d'une revue par exemple).

Bonnes reconnaissances !

Hors ligne

#375 Le 21/01/2010, à 21:53

astre

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci ! Ça marche super.
En plus tu me fais réaliser que j'ai su faire un "script" ; je suis fier de moi wink.
Encore merci.

Dernière modification par astre (Le 21/01/2010, à 21:55)


Michel ASTRE
Poèmes et chansons pour les cinq saisons
https://astre.legtux.org/sitepo/portail.htm

Hors ligne