Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".
Test de l'ISO d'Ubuntu francophone : nous avons besoin de testeurs pour la version francophone d'Ubuntu 14.04. Liens et informations ici.

Attention, une faille de sécurité dans bash a récemment été rapportée, il est recommandé de mettre à jour son système (plus de détails) *** mise à jour 12/10/2014 ***

#26 Le 12/02/2007, à 20:34

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir grendel,

Etonnant : nous n'obtenons pas les mêmes résultats :
- en 300 dpi en "binary", et scan sur un fichier enregistré en png, j'ai de bons résultats avec OCRAD.
- avec GOCR, j'obtiens des petits rectangles au milieu des lettres déchiffrées.

Tu es sous dapper ? edgy ? quelle version de Kooka ?

Dictionnaire : comme "Client", tu ne peux pas choisir "Aspell" ? (ce n'est pas la 1ère "case", mais la troisième)... Si on choisit ici "Aspell", ça permet de choisir "français".

J'avais aussi "ne fonctionne pas sur ce système" avant de découvrir ça.
(par contre, je n'ai pas encore compris comment utiliser correctement le dictionnaire (j'en reste au message 21 ci-dessus).

Dernière modification par Sorbus (Le 12/02/2007, à 20:36)

Hors ligne

#27 Le 12/02/2007, à 22:25

grendel

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus a écrit :

Par ailleurs, en Aspell +"Français (40-only)", Kooka ne reconnaît pas les accents... ce qui rend la comparaison "résultat de la ROC/dictionnaire" impossible, et empêche de fait toute vérification orthographique... Il y a sans doute un truc que je n'ai pas pigé

Je confirme,
j'ai fait les test avec le même extrait traité en GOCR et en OCRAD. Il semble qu'il y ai un léger mieux pour OCRAD mais de peu. Aucun des traitements ne retrouve les accents. L'utilisation des dictionnaires ne change rien pour le traitement proprement dit, ni meme l'encodage : on arrive au même résultats avec ASCII, UTF8 ou  ISO-8859-1.

Quelques exemples
OCRAD, UTF8
T_e ,_ep??;-a{,_e dex d;rricutt??s dc_s \code(01f5)(??ve__s se_ prat??que dans la ;-elacion p??da,_o\code(011d)ique r??e_uli??i-e_ de_s_
;gnan??s avec (es \code(01f5)(??h1es, ??ependant (es ??h_atuatic3ns const??tuent des temps fc3t_s du I_ep??I_agC
p!rlS??ceis dex diffic_uli??s.


OCRAD, ISO-8859-1
T_e ,_ep�;-a{,_e dex d;rricutt�s dc_s \code(01f5)(�ve__s se_ prat�que dans la ;-elacion p�da,_o\code(011d)ique r�e_uli�i-e_ de_s_
;gnan�s avec (es \code(01f5)(�h1es, �ependant (es �h_atuatic3ns const�tuent des temps fc3t_s du I_ep�I_agC
p!rlS�ceis dex diffic_uli�s.

GOCR, UTF-8
Ie_e ;_ep�i-a{,Je dex d;rrcutt�s dc_s �t�ve____ se_ prat�que dans la ;-eIaEURion p�dag_o\code(011d)�que r�e_uli�i-e_ de_s
;gnan�s avec les �t�_1es, �ependant les �h__at uat�ons constituent des temps fc_t_s du ;_ep�t'agC
p!r'S�ceis des difficulI�s.

GOCR, ISO-8859-1
I_e ;_ep�i-ag_e dex diffcuIt�s dc_s �l�ve____ se_ prat�que dans la ;-eIaEURion p�dag_o\code(011d)�que r�e_uli�i-e_ de_s
enseignants avec les �l�_1es, cependant les � _valuat�ons constituent des temps fc_i_s du ;_ep�i_age
pr�cis des difficulI�s.

Pour info les premiers mots étaient :
Le repérage des difficultés des élèves.....

Les lettres accentuées ou non reconnues sont remplacées par des rectangles. Le plus important serait de trouver un moyen de rétablir les accents ou au moins des mots entiers avec des caractères anormaux. Cela permettrait de tester une reconnaissance par le dictionnaire. Ce n'est qu'après que l'on pourra rechercher les variantes offertes par les dictionnaires.

Je continue les tests mais si l'encodage ne permet pas de retrouver les caractères accentués, le traitement ne sera jamais satisfaisant, du moins pour ma part.


Il n'y a pas de problème, il n'y a que des solutions. Reste à savoir où les trouver!

Hors ligne

#28 Le 12/02/2007, à 22:34

grendel

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir Sorbus,

nos messages se sont croisés. Je travaille avec un kooka 0.44 using KDE 3.5.5 avec un UBUNTU EDGY.
Je suis intrigué par la différence de résultats sous OCRAD. Au début j'obtenais un truc du genre slave avec des caractères latin mais sans rectangles. Lorsque j'ai obtenus des trucs plus logiques, j'ai vu apparaître les rectangles.
Je suis toujours en 300 DPI en gris. Je ne vois pas pourquoi cela changerait la lecture à ce point mais je vais essayer en NB.

On continue:P


Il n'y a pas de problème, il n'y a que des solutions. Reste à savoir où les trouver!

Hors ligne

#29 Le 13/02/2007, à 09:10

Schbler

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

En fait, ce qui ne semble pas être clairement indiqué, c'est qu'ocrad n'est absolument pas un ORC mais un logiciel qui a été conçu, du temps de la guerre froide, par les services secrets français afin de chiffrer les messages.

Dans la Pravda du 14 octobre 1987, on pouvait lire un article dans lequel Yourri Kamentchenko, alors chef suprême du KGB, avouait à mots à peine voilés : "Les Français utilisent un service de code particulièrement efficace puisqu'il varie d'une machine à l'autre et qui porte le nom secret d'ocrad : On Corrige la Réalité Avec Délicatesse".

Début des années 2000, après qu'une Commission d'Enquête, requise à la demande du Président de la République en personne, ait rendu son rapport, le Service du Chiffre a abandonné ce puissant logiciel. En effet, il y avait eu alors quelques erreurs d'utilisation qui avaient coûté leurs places aux chefs de ce service. Ainsi, le 26 avril 86, lorsque les Soviétiques avaient annoncé la catastrophe de Tchernobyl, le message avait été traduit par :"Aucun danger. Le nuage s'arrêtera à la frontière franco-allemande". De même, en 1999, lors du naufrage de l'Erika, le décodage du message avait donné :"On ne constate qu'une très légère fuite de pétrole et l'épave du navire Erika doit être remorquée vers le port de Saint-Nazaire pour y être réparée avant de reprendre la mer. Aucune pollution n'est à craindre".

Dernièrement, une équipe de chercheurs s'est penché sur ce puissant programme de codage. Pour l'instant, des pistes entre l'encodage et les dictionnaires sont explorées. Ocrad serait-il conçu en utilisant la langue celte ? N'aurait-il pas été déjà utilisé par Vercingétorix à Gergovie contre César ? Aurait-il, dans ce cas, montré une faille à Alésia ? Le message de Napoléon au Tsar devant Moscou qui était : « Rendez-vous, vous arrivons ! », ne serait-il pas devenu : « Préparez-nous un feu de cheminée, nous arrivons ! » ? Autant de questions qui restent encore sans réponse. Cependant, on attend toujours de trouver la pierre de Rosette qui en livrera les secrets

PS : ceci est, bien sûr, une blague à ne surtout pas prendre au sérieux.

.


Plus tu pédales moins fort, moins tu avances plus vite

Hors ligne

#30 Le 13/02/2007, à 17:26

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Une petite page humoristique wink
Mais soyez prudents... ne riez pas trop d'ocrad... il nous réserve peut-être des surprises.

Pour les résultats que j'ai eu avec Kooka configuré Ocrad, voir la fin du message 3 de ce fil de discussion (il n'y avait qu'un "é" et deux "ç" dans le texte testé, ce qui est peu, mais ils ont parfaitement été reconnus).

Pour le test un peu plus complexe donné dans le message 16 de ce fil. C'est aussi avec Kooka/ocrad (sur un fichier scanné en "Binary" 300 dpi enregistré au format .png) que j'ai eu le meilleur résultat. Meilleur qu'avec Xsane/gocr.

Puisque j'ai enregistré le résultat dans un fichier texte, je le mets ici  :

Arial 12 : Ce texte a été écrit pour tester différents logiciels d'OCR sous Linux. Peut-être
aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. 1 B 2 ou 3 + 4, ça
fait 3 ou T. C'est à  dire que quelques chiffres placés on ne sait oà¹, ce n'est pas très facile.
Voilà  en gras. Gewe demièrephrase esten italique : à  é è  à¹ ! ? c  @ % , ;/

Arial 10 : Ce texte a été écrit pour tester différents logiciels d'OCR sous Linux. Peut-être aurons-nous un
résultat intéressant. Ou bien tout sera du pareil au même. 1 B 2 ou 3 + 4, ça fait 3 ou 7. C'est à  dire que
quelques chiffres placés on ne sait oà¹, ce n'est pas très facile. voilà  en gras. Cehe dernière phrase est en
italique:à éèà¹! ?c@%, ;/

Times New Roman 12 : Ce texte a été écrit pour tester différents logiciels d'OCR sous Linux. Peut-
être awons-nous un résultat intélssant. Ou bien tout sera du paeil au même. l & 2 ou 3 + 4, Sa fait 3
ou 7. C'est à  dire que quelques chiKres placés on ne sait oà¹, ce n'est pas très facile. Voilà  en gras.
Cette dernièrephrase esten italiqNe : à  é è F à‘ ! ? < > @ % , ;/

Times New Roman IO : Ce texte a été écrit pow ester différenu lociels d'OCR sous Linux. Peut-ê([e awons-nous un
résultat intéessant. Ou bien tout sera du pareil au même. l & 2 ou 3 + 4, Ca fait 3 ou 3. C'est à  dàºe que quelques
chiffres placés on ne sait oà¹, ce n'est pas très facile. Voilà  en gB. Cehe dernièrephT#se est en italique .. à  é è F ๠! ? <
>@%,;/

Courier 10 Pitch 12 : ce texte a été écrit pour tester diférents
logiciels d'OCR sous Linux. Peut-être aurons-nous un résultat
intéressant. Ou bien tout sera du pareil au même. l 6 2 ou 3 + 4,
ça fait 3 ou 7. C'est à  dire que quelques chiffres placés on ne
sait oà¹, ce n'est pas très facile. oilà¡ en gas. Cette dernière
phrase est en itaique : à  é è F ๠! ! < > @ 8 , ; / .

Courier 10 Pitch 10 : Ce texte a été écrit pour tester différents ogiciels
d'OCR Bous Linux. Peut-étre aurons-nous un résultat intéressant. Ou bien tout
sera du pareil au même. l s 2 ou 3 + 4, Sa fait 3 ou 7. c'est à  dire que
quelques chiffres placés on ne sait oà¹, ce n'est pas très facile. voilà¡ eo graa.
Cette dernière phrase est en ita3ique : à  é è ç ๠! ! < > Q 8 , ; /

Ce n'est pas si mal !
Avec ça, un dictionnaire fonctionnel pourrait faire un bon boulot...

J'ai laissé les retours à  la ligne, car c'est un des points qui m'ennuient. Copié-collé dans OOo Writer, ces retours correspondent à  des marques de paragraphe, et je ne connais pas le truc pour les remplacer automatiquement par des espaces. Si quelqu'un a une idée...

Pour revenir à  Kooka, voir dans ce fil de discussion sur Framasoft le second message de "alaingre" (celui avec les captures d'écran) : http://forum.framasoft.org/viewtopic.php?t=21618 .

Les rectangles dont je parle avec Kooka/gocr sont ceux que montre la première capture d'écran.

Ensuite, l'auteur de ce post dit aussi avoir de bons résultats avec Kooka/ocrad.

Si nous avons des résultats différents avec grendel, c'est certainement du à  une petite différence (de configuration ou de version). Je vérifie ma version : voir fin du message suivant.

@+

Dernière modification par Sorbus (Le 19/01/2008, à 15:18)

Hors ligne

#31 Le 13/02/2007, à 17:59

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus a écrit: Par ailleurs, en Aspell +"Français (40-only)", Kooka ne reconnaît pas les accents... ce qui rend la comparaison "résultat de la ROC/dictionnaire" impossible, et empêche de fait toute vérification orthographique...

grendel a écrit : Je confirme,
j'ai fait les test avec le même extrait traité en GOCR et en OCRAD.

On ne s'est pas compris. Kooka/ocrad reconnaît les accents (chez moi) comme indiqué ci-dessus. Mais c'est le dictionnaire qui ne les reconnaît pas. Il trouve donc autant de fautes qu'il y a de mots accentués... et voudrait corriger mal (sans reconnaissance des accents) des mots qui ont été correctement reconnus par Kooka/ocrad.

Pour être plus explicite, j'ai mis côte à côte le "résultat de la ROC" (à gauche) et la fenêtre "vérification du dictionnaire de la ROC" (à droite)...
... Une capture d'écran montre que le dictionnaire voudrait remplacer le mot "écrit", parfaitement reconnu lors de la ROC, par "criAct" (en pire, mais je ne trouve pas tous les caractères spéciaux yikes)... Bref, c'est pas tout à fait ce qu'on demande à un dictionnaire tongue :

5dc44091da9336b031780d6d4b3ed343.png

@grendel : Je travaille aussi avec un kooka 0.44 "utilise KDE 3.5.5" sous UBUNTU EDGY.

Y'a un truc hmm

[Edit : j'ajoute une chose... Ubuntu... environnement Gnome...
... et non Kubuntu... On dit que Kooka fonctionne dans l'environnement Gnome... mais fonctionne-t-il au maximum de ses possibilités... Le problème du dictionnaire ne viendrait-il pas de là : "utilise KDE 3.5.5" ?

@+

Dernière modification par Sorbus (Le 13/02/2007, à 18:34)

Hors ligne

#32 Le 13/02/2007, à 21:01

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@Schbler,
Je reviens sur TextBridge.
La version dont je dispose est TextBridge Classic "Ver.2.0 (Win) - Ver.3.0 (Mac)"
Comme je l'ai utilisée sous Windows, c'est donc la version 2... et apparemment pas "pro", et qui était dans le carton avec le scanneur Epson que j'ai acheté il y a 7 ans je crois. J'ai 2 CD "TextBridge Classic", l'un nommé "Disc Vol. 1.00 Epson" et l'autre "Disc Vol. 1.01 Epson".

Je n'ai jamais compris la différence entre ces deux Cd hmm  mais c'est à partir d'eux que j'installais les modules des langues qui m'intéressaient (très nombreux dictionnaires de bonne qualité, dont le hongrois que j'ai utilisé).

Je n'ai pas installé Wine et ne peut donc tester... mais c'est une piste à suivre. Ce vieux logiciel TextBridge me donnait toujours des résultats de très grande qualité, et j'avais été impressionné il y a 7 ans par le haut niveau de reconnaissance optique auquel on arrivait. Bien sûr, je n'ai pas essayé des textes en caractèrs gothiques en vieil allemand tongue Peut-être que les meilleurs logiciels actuels peuvent le faire, je ne sais...

A l'occasion j'irai faire un tour sous Windows pour retrouver comment j'installais les modules de langue.

@+

Dernière modification par Sorbus (Le 14/02/2007, à 01:56)

Hors ligne

#33 Le 13/02/2007, à 21:19

Rasmanai

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

cherche des doccument en mecanique auto sur niveau BAC

Hors ligne

#34 Le 14/02/2007, à 01:04

lut!n

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Ce message n'a rien a faire dans le forum en general et sur ce topic en particulier, merci donc d'éviter ce genre de posts a l'avenir smile

Hors ligne

#35 Le 14/02/2007, à 23:41

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@Schbler

Au sujet de TextBridge... Je suis allé voir comment fonctionnait la sélection d'une langue (et au préalable l'installation d'un module de langue à partir du CD... pour TextBridge Classic 2.0)... Tu verras si tu retrouves quelque chose de comparable avec TextBridge 9 pro... et si oui... pourras-tu le faire fonctionner sou Ubuntu via wine ?

Voici donc :

TextBridge Classic 2.0
Dans la barre des menus, j’ai : Fichier – Eddition – Affichage – Traitement – Aide – Mettre à niveau

Pour sélectionner une langue (dont le module est déjà installé), il faut dérouler le menu «Traitement», puis «Paramètres»… Ceci ouvre une fenêtre intitulée «Paramètres»…
Cliquer sur l’onglet «Traitement» : on a alors à gauche sous «Paramètres de traitement» : «Langue».

Il est possible ici de sélectionner parmi 62 langues.
Si le module de la langue sélectionnée est déjà installé :
Cliquer sur « OK », et c’est tout bon, au prochain scan, le dictionnaire correspondant fonctionnera (de façon cachée, mais efficace).

Si le module de la langue sélectionnée n’est pas déjà installé (par exemple "Grec"), on obtient un message d’avertissement : « La langue sélectionnée n’est pas installée. Veuillez fermer TextBridge et exécuter l’utilitaire d’installation à partir du CD TextBridge »

J’insère le CD TextBridge Classic « Disc Vol. 1.00 Epson »… Il se lance en autorun, propose d'abord de choisir la langue de l’interface d’installation (je choisis le français), puis propose trois options : «Ajouter/Retirer», «Installer» ou «Annuler».
Choisir « Ajouter/Retirer »
Dans la fenêtre qui s’ouvre : à gauche, les langues disponibles ; et à droite, les langues déjà installées. Je sélectionne "Grec", et je clic sur le bouton «Ajouter»…

Il reste à ouvrir TextBridge, et à sélectionner «Grec» via menu «Traitement --> Paramètres --> onglet "Traitement"».  La Roc est alors prête à fonctionner sur un texte en grec lors du prochain scan

.

A sujet de TextBridge (avec des éléments valables sur la ROC en général), voir aussi :
http://ciel5.ac-nancy-metz.fr/ac-tice/a … rticle=158

Dernière modification par Sorbus (Le 14/02/2007, à 23:44)

Hors ligne

#36 Le 15/02/2007, à 00:20

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

En allant faire une petite visite à  TextBridge, j'en ai profité pour lui soumettre le texte-test déjà  essayé avec Xsane et Kooka.
Finalement, ce logiciel est moins performant que le souvenir que j'en avais gardé.

La différence, c'est qu'il ne donne pas le résultat en texte brut, mais qu'il essaye de conserver une certaine mise en forme : taille des polices, caractères italiques ou gras. A part la taille des polices que je ne peux garder dans ce post, ça donne ceci :

Anal 12 Ce texte a été écrit pour tester différents logiciels d’OCR sous Linux. Peut-être aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. i & 2 ou 3 + 4, ça fait 3 ou 7. C’est à  dire que quelques chiffres placés on ne sait oà¹, ce n’est pas très facile. Voilà  en gras. Cette dernière phrase est en italique à  é è ç à¹! ? <> @ %, , /

Aria! 10 Ce texte a été écrit pour tester différents logiciels d’OCR sous Linux. Peut-être aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. i & 2 ou 3 + 4, ça fait 3 ou 7. C’est à  dire que quelques chiffres placés on ne sait oà¹, ce n’est pas très facile. Voilà  en gras. Cette dernière phrase est en italique à  é è ç à¹! ? <> @ %, ; /

limes New Roman 12 Ce texte a été écrit pour tester différents logiciels d’OCR sous Linux. Peut-être aurons-nous un résultat intéressant. Ou bien tout sera du pareil au même. i & 2 ou 3 + 4, ça fait 3 ou 7. C’est à  dire que quelques chiffres placés on ne sait oà¹, ce n’est pas très facile. Voilà  en gras. Cette dernière phrase est en italique: à  éè ç à¹! ? <> @ %, ;/

Hormis ces questions de mise en forme du texte, Kooka n'a finalement pas grand chose à  envier à  cette version de TextBridge (même aidée de son dictionnaire français) en ce qui concerne la pure reconnaissance optique.

Dernière modification par Sorbus (Le 19/01/2008, à 15:19)

Hors ligne

#37 Le 17/02/2007, à 01:28

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bien, me revoilà à causer tout seul neutral

@Schbler :
C'est juste pour dire que je viens d'essayer un scanneur sous Dapper...
Il y a bien moyen d'enregistrer au format texte... avec Xsane 0.97.
La manip est juste un peu différente :
1°) numériser son texte en 300 dpi gris
2°) une fois le document numérisé, il apparaît dans la fenêtre "visionneuse"...
il suffit alors de faire "Fichier --> OCR - enregistrer au format texte"
3°) dans la fenêtre qui s'ouvre, nommer le fichier texte et choisir le dossier de destination (par exemple "Desktop" (le bureau)), puis valider, et le tour est joué.

[Edit : il y a même plus simple en sélectionnant directement "enregistrer" au lieu de "visionneuse" : voir la dernière mise à jour du Wiki : http://doc.ubuntu-fr.org/ocr.
Les captures d'écan sont explicites.

@+

Dernière modification par Sorbus (Le 17/02/2007, à 11:02)

Hors ligne

#38 Le 17/02/2007, à 22:13

teolemon

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Non pas tout seul. C'est une très bonne initiative que tu as prise. J'ai pour ma part commencé le même travail avec la reconnaissance et la synthèse vocale.

Autant de fonctionnalités qui sont difficiles à mettre en oeuvre sous Ubuntu (pour le moment)

---
A noter: http://www.lea-linux.org/cached/index/Logith%C3%A8que:OCR.html
et notemment:
"Pour des reconnaissance optimale et rapide il est conseillé de scanner en mode "lineart" plutot que "couleur". Notre testeur n'a pas fait beaucoup d'essai mais en couleur il a obtenu 0% de réussite et après un temps de calcul assez long et en lineart il a obtenu 100% assez rapidement sur de courts extraits (quelques lignes)."

http://www.linux-ocr.ekitap.gen.tr/fr/
Mais faut-il être exhaustif ?  Faut-il citer les projets morts ? Faut-il motiver leurs auteurs pour qu'ils fusionnent leurs projets ?
Ca pourrait être pas mal de secouer un peu le secteur.

---
Enfin mais c'est personnel, il semble que tesseract soit rapidement appelé à supplanter tous les autres
http://www.linux.com/article.pl?sid=06/09/18/191251

Dernière modification par teolemon (Le 17/02/2007, à 22:21)


I'm a bun, but you bun too!
Aidez-nous à traduire Ubuntu Trusty Tahr (doc, applis, descriptions d'applis, pages web) en français  >> http://doc.ubuntu-fr.org/ubuntu-l10n-fr

Hors ligne

#39 Le 18/02/2007, à 12:42

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour teolemon,

Disons que ce sont des initiatives qui se rejoignent, puisque l'ouverture de la page du Wiki, en janvier, c'est toi wink

--> Une part du retard de la ROC/OCR sous Linux est bien réelle... pour l'instant...
... mais une autre part provient du manque d'explications quant à l'usage optimal que l'on peut faire des outils dont nous disposons déjà... L'amélioration des processus de reconnaissance eux-même devra être accompagnée d'un effort de communication sur les "modes d'emploi" des applications.

--> Comme je ne pige rien à l'anglais, pourrait tu résumer brièvement les arguments qui devrait faire de tesseract, à court ou moyen terme, la meilleure application d'OCR sous Linux ?

--> La page sur les diverses applications (ou projets) de ROC existant ou ayant existé sous Linux :
    --> elle est dans un français approximatif, ce qui la rend peu compréhensible...
    --> on peut citer les projets morts; mais seulement pour dire qu'ils sont morts...
    --> secouer le secteur en motivant les auteurs pour qu'ils fusionnent leur projets : excellente idée, on peut exprimer ce souhait sur la page wiki d'ubuntu : lors d'une recherche Google sur "OCR Linux", cette page est bien placée, d'autres la liront : mais il faudrait que nos amis anglophones fassent de même, ils auront plus de poids ! Il y a sans doute des projets doublons, peu complémentaires les uns des autres; mais certainement aussi des projets qui sont plus avancés dans certains domaines et pourraient faire bénéficier une application "unifiée" de ce qu'ils ont de meilleur.

--> Enfin, Kooka et "lineart" : j'avais déjà vu cette option conseillée dans un post d'alaingre : "en utilisant l' option de numérisation lineart  et du noir et blanc comme cela normalement conseillé"
(voir lien dans le message 30 de ce fil).
Mais je n'ai pas trouvé cette option sur ma configuration "edgy +kooka 0.44 utilisant KDE 3.5.5 + scanneur Epson Perfection 1200S".
Comme options de "Scan mode", j'ai seulement "Binary", "Gray" et "Color"...
J'ai donc utilisé "Binary" pour mes tests.
Je viens de voir qu'avec une autre configuration "dapper + kooka 0.44 utilisant KDE 3.5.2 + scanneur SnapScan 1212u", les options de "Scan mode" sont "Color", "Halftone", "Gray" et "Lineart"

Je ne sais pas de quel élément de la configuration provient cette différence... Mais il est certain qu'il faudrait connaître la configuration optimale des divers éléments de cette fenêtre "configuration du périphérique de numérisation" :
- Scan mode
- Halftoning (j'ai dans ma 1ère configuration une liste déroulante avec 11 options possibles),
- Résolution
- Use custom gamma table (liste déroulante : 5 options possibles)

@+

Dernière modification par Sorbus (Le 18/02/2007, à 12:49)

Hors ligne

#40 Le 18/02/2007, à 19:08

teolemon

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Peut-être se mettre à tes tests standardisés:
http://books.google.fr/books?vid=0dAv5uEzpNmRm9Mvy_cALY&id=FY2hEGqpHNwC&pg=PA5&lpg=PA5&dq=mis%C3%A9rables
Les misérables qui me donnent un résultat execrable sur Simple OCR (j'ai du manquer un truc)


I'm a bun, but you bun too!
Aidez-nous à traduire Ubuntu Trusty Tahr (doc, applis, descriptions d'applis, pages web) en français  >> http://doc.ubuntu-fr.org/ubuntu-l10n-fr

Hors ligne

#41 Le 20/02/2007, à 22:44

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Tests standardisés ?
Disons que c'est une forme de tests standardisés. Perso, je numérise rarement des vieux livres... mais plus souvent des documents récents... parfois aussi des articles fin XIXème ou début XXème.

Mais OK pour ajouter "les misérables" à la palette des tests standardisés : le document est volumineux, pourrais-tu préciser une ou plusieurs pages te servant pour les tests... ça permettrait de comparer. Je veux bien essayer avec Kooka ou Xsane.

Et en attendant mieux, pour les documents récents, je garde le texte que j'ai utilisé jusqu'à présent.

PS : J'ai essayé Clara, mais je n'ai rien compris...
J'ai aussi essayé de suivre ton tuto pour installer Tesseract, mais je n'ai pas réussi.

Dernière modification par Sorbus (Le 20/02/2007, à 22:45)

Hors ligne

#42 Le 21/02/2007, à 12:38

bernic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut

Je fais aussi partie de ceux qui souhaitent utiliser un OCR pourquoi pas Xsane... Je n'ai rien contre, je viens d'installer Edgy et ma toute nouvelle imprimante multifonctions Epson stylus DX4250.smile

Tout est bien reconnu, j'imprime, je scanne et j'essaie l'OCR en suivant la doc
http://doc.ubuntu-fr.org/ocr. résolution 300 ou 600 dpi, mode texte, gris ou noir et blanc, enregistrer... Bref, après qques essais, j'ai toujours ce message qui revient :

Code:

erreur de processus enfant : erreur d'exécution de commande OCR : gocr : Aucun fichier ou répertoire de ce type : Fermer

Que puis-je faire ? Ai-je oublié une étape ou mal configuré qque chose ?

Dernière modification par bernic (Le 21/02/2007, à 13:54)


La théorie, c'est quand on comprend tout et que rien ne marche.
La pratique, c'est quand tout marche mais on ne sait pas pourquoi.

Avec win, ils ont réussi les deux : rien ne marche et personne ne sait pourquoi

Hors ligne

#43 Le 21/02/2007, à 14:09

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour bernic,

le paquet "gocr" ne doit pas être installé chez toi :

sudo apt-get install gocr

(ou installe-le par Synaptic)

Je complète la page de la documentation sur ce point. Merci ! @+

Hors ligne

#44 Le 31/07/2007, à 20:24

Scoaz

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

J'ai un "problème" dans le genre. J'essaye de travailler avec kooka/ocrad ou kooka/gocr, mais le résultat est catastrophique.

Ce que je tente de faire est assez spécial. Il s'agit de reconnaître les caractères d'un code python sous format png, récupéré à partir d'un "imprime écran" du cours sous format pdf de Gérard Swinnen...

J'ai essayé en retravaillant l'image avec Krita, je l'ai mise en niveaux de gris, puis je l'ai agrandi (après avoir testé en RVB et en taille normal ou RVB agrandi).
Le résultat est vraiment catastrophique, que des parenthèse, des underligne, etc...

Je me demandais donc si on pouvais pas obtenir quelque chose de proche d'un scan en noir et blanc à 300dpi.

Je continu mes test mais pour l'instant rien ne va.

a+

Hors ligne

#45 Le 01/11/2007, à 21:03

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,
j'ai parcouru attentivement le wiki sur l'OCR.
Et je suis allé aussi allé de quelques tests... pas gagné!

je n'arrive pas à lancer xsane (je n'ai pas de scanner), y a t'il un moyen de s'en sortir quand même ? (ce serait ballot ...)

sinon dans le wiki, pour tesseract,  il est mentionné que les images doivent être au format bmp: chez moi c'est du tiff ou mdi qu'il réclame...

pour l'instant chez moi, rien n'arrive à la cheville de finereader sous windows sad

avez-vous du nouveau de votre côté?

Dernière modification par hector (Le 01/11/2007, à 22:52)

Hors ligne

#46 Le 01/11/2007, à 21:51

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonsoir hector,

Heureux de te rencontrer sur ce fil. Pas étonnant, quand on s'intéresse aux textes, des dictionnaires à l'OCR...

Bien, non. De mon côté, rien de nouveau. Je n'ai pas effectué de nouveaux tests.

Du côté d'Ubuntu, il y a du nouveau, puisque tesseract-ocr est disponible sous Gutsy. Mais je ne l'ai pas installé ni testé, faute de temps... ça viendra un jour ;-)

Xsane, c'est vrai, je ne l'ai utilisé qu'avec un scanner branché. Effectivement, sans cela, je ne sais comment faire (je viens d'essayer sur mon portable). Je ne sais pas si on peut utiliser Xsane sans scanner.

Je ne sais pas si teolemon est toujours en ligne... Il y aurait un peu de mise à jour à faire sur le wiki... au moins pour actualiser pour Gutsy.

Pour le reste, est-ce qu'il y a du nouveau dans le domaine de la Reconnaissance optique de caractères dans le monde Linux depuis 8 mois... A part les évolutions de tesseract, je ne sais pas. Je n'ai pas effectué de nouvelle recherche à ce sujet...

Mais on peut relancer un peu ce fil... si certains ont du nouveau, ou veulent faire part de leurs expériences d'OCR sous Linux...

Hors ligne

#47 Le 01/11/2007, à 22:20

JP03

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Quelques bonnes idées, ne serait-ce que d'utiliser Wine, car l'OCR n'est pas fameux sous Linux si j'en crois mes expériences.

Avec un scanner, on peut modifier la définition, mais pas lorsqu'on utilise une image déjà faite.


Jean-Pierre - 50 ans - Ubuntu 8.04 - Hardy - après 7.04 et 7.10

Hors ligne

#48 Le 01/11/2007, à 23:04

hector

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Oui oui, tu me vois venir, sorbus, avec mes gros sabots. wink
sans doute comme toi, je caresse en pensée  un projet collectif du genre:
1/numérisation d'un vieux gros dico tombé dans le domaine public.
2/OCR pour mettre sous format odt (qui est du XML)
3/puis mise au format stardict (fastoche wink )

avec répartition du travail de bénédictin consistant à corriger les erreurs de  l'OCR. Je lancerai un post  tantôt, mais j'ai quelques inconnues sur la faisabilité du projet...

JP03: quel logiciel utilises-tu avec wine?

J'ai testé tesseract sous feisty: pas très probant, plutôt mieux que les autres, mais c'est à propos de celui-là que je relevai une erreur dans le wiki: il ne prend que du tiff  et mdi.

Hors ligne

#49 Le 01/11/2007, à 23:29

JP03

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je n'ai pas encore essayé de logiciel Windows, je pense réutiliser celui qui était avec l'ordi avant que je l'ubuntuise.


Jean-Pierre - 50 ans - Ubuntu 8.04 - Hardy - après 7.04 et 7.10

Hors ligne

#50 Le 01/11/2007, à 23:47

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Avec wine, j'avais essayé SimpleOCR et TextBridge Classic, mais je n'avais réussi à faire fonctionner aucun des deux.

Schbler (messages 20 et 22 de ce fil) avait réussi pour TextBridge Pro 9.

Dernière modification par Sorbus (Le 01/11/2007, à 23:56)

Hors ligne

Haut de page ↑