[Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Poun64 · Le 06/01/2014, à 20:28

Bonjour tout le monde !

J'essaie en vain de paramétrer en français la Reconnaissance Optique des Caractères (ROC) "Tesseract" sur le logiciel de Scan " Gscan2pdf".
Nota : Tesseract produit (et de loin) les meilleurs résultats de ROC, comparé aux deux autres moteurs proposés (GOCR et Cunéiforme).

Aux paquets installés automatiquement par la Logithèque Ubuntu, lors de l'installation de "Gscan2pdf", j'ai ajouté le paquet "tesseract-ocr-fra" à partir de Synaptic.
Rien n'y fait : dans la liste déroulante du choix de la langue Tesseract à reconnaître dans le paramétrage de Gsnan2pdf, il n'a que l'anglais comme choix... Sniff

Quelqu'un a-t-il réussi à le faire passer en français ?

Merci pour votre retour

Dernière modification par Poun64 (Le 21/01/2014, à 00:03)

J5012 · Le 06/01/2014, à 21:27

je l'utilise mais je n'ai rien installe d'autre ...

je me suis juste assure que tous les composants de traduction fr aient ete installes → module linguistique

Poun64 · Le 07/01/2014, à 00:07

Bonsoir J5012 et merci pour ton retour

Qu'appelles-tu "module linguistique" ? De quel paquet parles-tu ?
Je n'ai installé en plus que le paquet "tesseract-ocr-fra", y en a-t-il d'autres à mettre ?

J5012 · Le 07/01/2014, à 08:48

les modules de localisation utilisent d'autres composants pour la localisation et la traduction comme wspell, et le module linguistique est le composant logiciel qui permet de definir le plus facilement les paquets de localisation necessaires et manquants ... tu le trouves dans le "dash" en tapant langue : "prise en charge des langues" ou dans parametres systeme ...

Poun64 · Le 07/01/2014, à 14:54

La prise en charge des langues complète (Français) était déjà OK...
Le traducteur "wspell" ne figure pas dans mes dépôts, il y a par contre les vérificateur d'orthographe "aspell" et son module "aspell-fr" d'installé.

Chez toi, tu peux sélectionner "Tesseract en Français" dans Gscan2pdf ?

gl38 · Le 07/01/2014, à 15:04

Il faudrait vérifier que tesseract marche en français en ligne de commande :

tesseract image.jpg out.txt -l fra

Cordialement,
Guy

gl38 · Le 07/01/2014, à 16:22

Il faut reconnaître que gscan2pdf ne veut pas marcher en autre chose qu'en anglais chez moi. Comme il y a yagf et la ligne de commande ça ne me gêne pas beaucoup !
Cordialement,
Guy

Poun64 · Le 07/01/2014, à 16:25

En ligne de commande ça fonctionne parfaitement avec reconnaissance du texte en français (lettres accentuées reconnues).
Ça a fonctionné sur des fichiers au format "jpg" et "png", mais pas au format "pdf"...

Je viens de découvrir un fil de discussion ici : http://forum.ubuntu-fr.org/viewtopic.ph … 22#p609122
Ya de quoi lire (21 pages) !
Peut-être que tu y as déjà participé...

Dernière modification par Poun64 (Le 07/01/2014, à 16:46)

J5012 · Le 07/01/2014, à 21:02

ha oui je vois : j'utilise gscan2pdf + tesseract depuis un bon moment (avant precise)

actuellement en effet l'option francais n'est ni visible ni selectionnable dans la config tesseract de gscan2pdf, je ne l'avais jamais remarque avant aujourd'hui sans doute par ce que :

- avant la version precise, elle etait affichee
- mes docs accentuees francais ont toujours ete correctement reconnues

c'est sans doute un probleme de la gui gtk : avec precise les appli sont partiellement migres avec gtk3
qqun sous 13.10 ou 14.04 peut confirmer ?

gl38 · Le 08/01/2014, à 11:05

Si on compile la version 1.1.3 de gscan2pdf (en ajoutant les lib perl qui manquent et en ajoutant un paquet pour avoir sane 0.5) on a un menu correct pour tesseract avec les langues installées. Le résultat est bizarre : tous les mots sont dans des rectangles...

Bon, je préfère yagf qui fait ce que je veux.
Cordialement,
Guy

L'Africain · Le 14/01/2014, à 14:24

Je voudrais pas te contredire, mais j'utilise cunéiform dans xsane (en modifiant le paramètres de OCR par celui de cunéiform) et j'ai des résultats particulièrement bon, je pourrais même dire excellent. Il y a longtemps que j'ai abandonné gscanpdf pour ça, maitenant comme ça fait longtemps que j'ai pas utiliser gscan, peut-être s'est-il amélioré, et aurait rattrappé xsane, je ferais une fois un test.
Mais bon juste pour dire qu'avec xsane/cuneiform c'est impec.

Poun64 · Le 14/01/2014, à 16:03

Bonjour toul'monde !

Le problème avec Xsane c'est que, si j'en crois la doc, il n'est plus maintenu depuis 2010 : http://doc.ubuntu-fr.org/ocr
S'il est ainsi abandonné, il arrivera bien un jour où il ne sera plus proposé dans les dépôts...

Dernière modification par Poun64 (Le 14/01/2014, à 16:03)

Poun64 · Le 14/01/2014, à 17:05

gl38 a écrit :

Si on compile la version 1.1.3 de gscan2pdf (en ajoutant les lib perl qui manquent et en ajoutant un paquet pour avoir sane 0.5) on a un menu correct pour tesseract avec les langues installées. Le résultat est bizarre : tous les mots sont dans des rectangles...

En mettant la dernière version (gscan2pdf 1.2.2) via le PPA de Jeffrey Ratcliffe : https://launchpad.net/~jeffreyratcliffe/+archive/ppa on obtient le même résultat, à savoir :
- qu'on peut bien choisir la langue française !
- que tous les mots sont encadrés...
Inutilisable, donc...

L'Africain · Le 14/01/2014, à 17:43

Ah xsane plus maintenu !! C'est bien dommage, ça va m'embêter, merci pour l'info.

J5012 · Le 14/01/2014, à 21:33

xsane est une gui de sane : http://www.sane-project.org/sane-frontends.html

L'Africain · Le 15/01/2014, à 19:32

Ça veut dire quoi ? Que tant qu'il y a sane il y aura xsane ?

J5012 · Le 16/01/2014, à 04:30

non

pourquoi ca t'embete que xsame ne soit plus maintenu ? as-tu un gnulinux non maintenu ? et pourquoi ?

xsane n'est que la gui ...

L'Africain · Le 17/01/2014, à 18:25

Ça m'embête parce que je connais pas d'autres programme de scannage qui propose une option photocopie. Mais aussi xsane fait pas mal de chose, réunis en un seul programme, roc, multipages, photocopie. Mais je suis preneur, si vous avez des idées !

J5012 · Le 17/01/2014, à 20:53

as-tu jete un oeil sur l'adresse en #15 ?

de celle-ci, kooka est celui officiellement maintenu pour kde (donc present sous kubuntu)
http://techbase.kde.org/Projects/Kooka

sinon pour gnome il semble que ce choix s'oriente vers gscan2pdf

tu peux aussi rester sur xsane tant qu'il sera fourni par les depots officiels ...

un logiciel plus maintenu ne veut pas forcement dire que plus personne ne s'en occupe :
- le logiciel est considere abouti
- le logiciel a completement ete devermine

Poun64 · Le 18/01/2014, à 00:21

Bonsoir toul'monde !

J5012 a écrit :

...sinon pour gnome il semble que ce choix s'oriente vers gscan2pdf...

On en revient donc au titre de ce topic et au problème que j'expose au premier post, à savoir :
Impossible de choisir dans "gscan2pdf" le choix de la langue française pour la ROC "tesseract" et ce, même si en ligne de commande ce choix est pleinement opérationnel avec "tesseract"...
C'est baloo quand-même...

Dernière modification par Poun64 (Le 18/01/2014, à 00:23)

gl38 · Le 18/01/2014, à 18:32

Après avoir compilé gscan2pdf, comme je l'ai dit plus haut, j'obtiens sur la page "OCR output" les mots de la page chacun dans son rectangle.
C'est agaçant, mais si on sauve, en pdf, (je ne vois pas comment faire autrement !) le fichier pdf obtenu (qui est vraiment petit) contient le texte que l'on peut attraper à la souris et mettre dans un éditeur de texte, avec même quelques fautes (1 à la place de !) pour être bien sûr qu'il y a eu reconnaissance optique.
Donc ça marche, mais ce n'est pas demain que c'est plus pratique que yagf et xsane !
Cordialement,
Guy

J5012 · Le 18/01/2014, à 22:56

ce n'est pas parce qu'il y a une tendance vers gscan2pdf (position qui n'a pas ete officialisee) , que vous devez "abandonner" ce qui sied a vos objectifs, hein !

Poun64 · Le 19/01/2014, à 01:48

C'est sûr...
J'ai aussi une porte de secours qui semble sympa : utiliser un logiciel de Scan et de ROC qui m'a été livré avec ma multifonction laser HP.
Il s'appelle "Readiris pro 12", le peu que j'ai testé est pas mal...
Le hic, c'est qu'il fonctionne sous Windows...
J'ai maintenant deux raisons de garder un bout de Seven sur mon PC :
- la mise à jour de ma cartographie GPS Garmin,
- et maintenant la ROC.

L'Africain · Le 19/01/2014, à 09:50

Mais cuneiform avec xsane fonctionne très bien ainsi qu'ocrfeeder, pourquoi aller sous win pour cela?

gl38 · Le 19/01/2014, à 11:14

Et OpenStreetMap pour Garmin, ça existe aussi !
Et le mariage de xsane avec tesseract avec xsane2tess marche.
Cordialement,
Guy

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 06/01/2014, à 20:28

[Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#2 Le 06/01/2014, à 21:27

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#3 Le 07/01/2014, à 00:07

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#4 Le 07/01/2014, à 08:48

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#5 Le 07/01/2014, à 14:54

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#6 Le 07/01/2014, à 15:04

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#7 Le 07/01/2014, à 16:22

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#8 Le 07/01/2014, à 16:25

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#9 Le 07/01/2014, à 21:02

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#10 Le 08/01/2014, à 11:05

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#11 Le 14/01/2014, à 14:24

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#12 Le 14/01/2014, à 16:03

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#13 Le 14/01/2014, à 17:05

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#14 Le 14/01/2014, à 17:43

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#15 Le 14/01/2014, à 21:33

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#16 Le 15/01/2014, à 19:32

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#17 Le 16/01/2014, à 04:30

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#18 Le 17/01/2014, à 18:25

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#19 Le 17/01/2014, à 20:53

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#20 Le 18/01/2014, à 00:21

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#21 Le 18/01/2014, à 18:32

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#22 Le 18/01/2014, à 22:56

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#23 Le 19/01/2014, à 01:48

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#24 Le 19/01/2014, à 09:50

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

#25 Le 19/01/2014, à 11:14

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Pied de page des forums