OCR pour les langues asiatiques [gscan2pdf via tesseract]

itoun · Le 03/06/2009, à 10:47

Bonjour à tous !!

Après quelques recherches en vue de trouver le meilleur OCR du libre et étant sur ubuntu studio, je me suis dirigé vers XSane puis vers gscan2pdf...

...quelques réglages afin de pouvoir utiliser gscanpdf pour scanner... (merci aux changements des dépôts ça a nettement amélioré les choses, la version 0.9.29 est nettement plus puissante : c.f.>>documentation gscan2pdf)

Désormais la reconnaissance de textes se fait allègrement !!

Le but de mon post est le suivant :

Je suis actuellement à la recherche d'une solution afin d'obtenir une OCR visant à la reconnaissance de textes asiatiques tels que :
- chinois
- japonnais
- coréen

Après une recherche sur Google je n'ai pas trouvé de solution propre à Tesseract qui semble être le moteur le plus aguerri.

Sauriez-vous si une solution est actuellement en développement ou bien s'il il est préférable de songer à une autre méthode afin que je puisse effectuer mes reconnaissances de textes asiatiques ?

Vous remerciant pour l'intérêt que vous aurez senti poindre à la lecture de ce post,
J'attends avec impatience de vos nouvelles
Itoun

Sorbus · Le 20/06/2009, à 07:46

Bonjour Itoun,
Un paquet pour la reconnaissance du vietnamien existe pour Tesseract, mais pas encore en effet pour chinois, japonais et coréen.

Certains ont commencé à essayer d'adapter tesseract à la reconnaissance du japonais.

Potentiellement, Tesseract devrait pouvoir travailler sur ces langues asiatiques... Mais quand cela sera-t-il au point ?

Sinon, j'ai trouvé ça, mais n'en sais pas plus.

Et sur le forum Ubuntu, vous êtes deux à vous être interessé à ce type de question récemment. Vous pouvez peut-être vous entraider dans cette recherche. L'autre discussion est ici.

Il faudra voir aussi ce dont sera capable Ocropus, mais c'est au futur.
Pour l'instant, je trouve ceci (voir le tableau en bas de la page).

Dernière modification par Sorbus (Le 20/06/2009, à 08:10)

Sorbus · Le 20/06/2009, à 08:14

Tiens, justement, une petite recherche complémentaire me permet de trouver un serveur intéressant pour le japonais. Ça confirme que des solutions peuvent exister... avec justement NHocr et Ocropus (qui utilise lui-même Tesseract).

itoun · Le 23/09/2009, à 01:31

Bonsoir Sorbus,

Et avant tout, toutes mes excuses de ne pas t'avoir donné de nouvelles plus tôt.

Donc, je suis allé voir les liens que tu m'as conseillé, dont celui où il est possible de télécharger une archive :
http://gsl-nagoya-u.net/appendix/software/renumerate/
Ou encore celui-ci proposant un logiciel à installer :
http://code.google.com/p/nhocr/

Je t'avoue que je n'ai pas pris le temps de m'y coller sérieusement pour le moment, en grande partie pour une question de compétences, du coup je m'adapte aux trouvailles plus ou moins explicites que je trouve sur la toile.

Néanmoins, si tu as ces compétences, je suis près à essayer d'installer ces fichiers sur mon post avec ton aide afin de voir ce qu'il peut en ressortir.
Te remerciant encore,
Itoun

Sorbus · Le 08/10/2009, à 21:36

Bonjour itoun,

Je n'avais point vu ta réponse.
Je peux éventuellement t'aider à installer nhocr par exemple... Mais je ne connais rien aux langues asiatiques... Je ne pourrai donc guère tester.

Mais avant d'essayer d'installer quelque chose, est-ce que tu as essayé le lien que j'avais indiqué :un serveur intéressant pour le japonais.

Si tu utilises ce service en ligne pour tenter une reconnaissance optique de caractères sur un texte en japonais, obtiens-tu un résultat intéressant ?

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 03/06/2009, à 10:47

OCR pour les langues asiatiques [gscan2pdf via tesseract]

#2 Le 20/06/2009, à 07:46

Re : OCR pour les langues asiatiques [gscan2pdf via tesseract]

#3 Le 20/06/2009, à 08:14

Re : OCR pour les langues asiatiques [gscan2pdf via tesseract]

#4 Le 23/09/2009, à 01:31

Re : OCR pour les langues asiatiques [gscan2pdf via tesseract]

#5 Le 08/10/2009, à 21:36

Re : OCR pour les langues asiatiques [gscan2pdf via tesseract]

Pied de page des forums