Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 06/01/2014, à 20:28

Poun64

[Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Bonjour tout le monde smile !

J'essaie en vain de paramétrer en français la Reconnaissance Optique des Caractères (ROC) "Tesseract" sur le logiciel de Scan " Gscan2pdf".
Nota : Tesseract produit (et de loin) les meilleurs résultats de ROC, comparé aux deux autres moteurs proposés (GOCR et Cunéiforme).

Aux paquets installés automatiquement par la Logithèque Ubuntu, lors de l'installation de "Gscan2pdf", j'ai ajouté le paquet "tesseract-ocr-fra" à partir de Synaptic.
Rien n'y fait : dans la liste déroulante du choix de la langue Tesseract à reconnaître dans le paramétrage de Gsnan2pdf, il n'a que l'anglais comme choix... Sniff

Quelqu'un a-t-il réussi à le faire passer en français ?

Merci pour votre retour smile

Dernière modification par Poun64 (Le 21/01/2014, à 00:03)


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#2 Le 06/01/2014, à 21:27

J5012

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

je l'utilise mais je n'ai rien installe d'autre ...

je me suis juste assure que tous les composants de traduction fr aient ete installes → module linguistique

Hors ligne

#3 Le 07/01/2014, à 00:07

Poun64

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Bonsoir J5012 et merci pour ton retour smile

Qu'appelles-tu "module linguistique" ? De quel paquet parles-tu ?
Je n'ai installé en plus que  le paquet "tesseract-ocr-fra", y en a-t-il d'autres à mettre ?

hmm


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#4 Le 07/01/2014, à 08:48

J5012

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

les modules de localisation utilisent d'autres composants pour la localisation et la traduction comme wspell, et le module linguistique est le composant logiciel qui permet de definir le plus facilement les paquets de localisation necessaires et manquants ... tu le trouves dans le "dash" en tapant langue : "prise en charge des langues" ou dans parametres systeme ...

Hors ligne

#5 Le 07/01/2014, à 14:54

Poun64

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

La prise en charge des langues complète (Français) était déjà OK...
Le traducteur "wspell" ne figure pas dans mes dépôts, il y a par contre les vérificateur d'orthographe "aspell" et son module "aspell-fr" d'installé.

Chez toi, tu peux sélectionner "Tesseract en Français" dans Gscan2pdf ?


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#6 Le 07/01/2014, à 15:04

gl38

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Il faudrait vérifier que tesseract marche en français en ligne de commande :

tesseract image.jpg out.txt -l fra

Cordialement,
Guy

Hors ligne

#7 Le 07/01/2014, à 16:22

gl38

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Il faut reconnaître que gscan2pdf ne veut pas marcher en autre chose qu'en anglais chez moi. Comme il y a yagf et la ligne de commande ça ne me gêne pas beaucoup !
Cordialement,
Guy

Hors ligne

#8 Le 07/01/2014, à 16:25

Poun64

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

En ligne de commande ça fonctionne parfaitement avec reconnaissance du texte en français (lettres accentuées reconnues).
Ça a fonctionné sur des fichiers au format "jpg" et "png", mais pas au format "pdf"...

Je viens de découvrir un fil de discussion ici : http://forum.ubuntu-fr.org/viewtopic.ph … 22#p609122
Ya de quoi lire (21 pages) big_smile !
Peut-être que tu y as déjà participé...

Dernière modification par Poun64 (Le 07/01/2014, à 16:46)


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#9 Le 07/01/2014, à 21:02

J5012

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

ha oui je vois : j'utilise gscan2pdf + tesseract depuis un bon moment (avant precise)

actuellement en effet l'option francais n'est ni visible ni selectionnable dans la config tesseract de gscan2pdf, je ne l'avais jamais remarque avant aujourd'hui sans doute par ce que :

- avant la version precise, elle etait affichee
- mes docs accentuees francais ont toujours ete correctement reconnues

c'est sans doute un probleme de la gui gtk : avec precise les appli sont partiellement migres avec gtk3
qqun sous 13.10 ou 14.04 peut confirmer ?

Hors ligne

#10 Le 08/01/2014, à 11:05

gl38

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Si on compile la version 1.1.3 de gscan2pdf (en ajoutant les lib perl qui manquent et en ajoutant un paquet pour avoir sane 0.5) on a un menu correct pour tesseract avec les langues installées. Le résultat est bizarre : tous les mots sont dans des rectangles...

Bon, je préfère yagf qui fait ce que je veux.
Cordialement,
Guy

Hors ligne

#11 Le 14/01/2014, à 14:24

L'Africain

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Je voudrais pas te contredire, mais j'utilise cunéiform dans xsane (en modifiant le paramètres de OCR par celui de cunéiform) et j'ai des résultats particulièrement bon, je pourrais même dire excellent. Il y a longtemps que j'ai abandonné gscanpdf pour ça, maitenant comme ça fait longtemps que j'ai pas utiliser gscan, peut-être s'est-il amélioré, et aurait rattrappé xsane, je ferais une fois un test.
Mais bon juste pour dire qu'avec xsane/cuneiform c'est impec.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#12 Le 14/01/2014, à 16:03

Poun64

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Bonjour toul'monde smile !

Le problème avec Xsane c'est que, si j'en crois la doc, il n'est plus maintenu depuis 2010 : http://doc.ubuntu-fr.org/ocr
S'il est ainsi abandonné, il arrivera bien un jour où il ne sera plus proposé dans les dépôts...
hmm

Dernière modification par Poun64 (Le 14/01/2014, à 16:03)


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#13 Le 14/01/2014, à 17:05

Poun64

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

gl38 a écrit :

Si on compile la version 1.1.3 de gscan2pdf (en ajoutant les lib perl qui manquent et en ajoutant un paquet pour avoir sane 0.5) on a un menu correct pour tesseract avec les langues installées. Le résultat est bizarre : tous les mots sont dans des rectangles...

En mettant la dernière version (gscan2pdf 1.2.2) via le PPA de Jeffrey Ratcliffe : https://launchpad.net/~jeffreyratcliffe/+archive/ppa on obtient le même résultat, à savoir :
- qu'on peut bien choisir la langue française tongue !
- que tous les mots sont encadrés... hmm
Inutilisable, donc...


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#14 Le 14/01/2014, à 17:43

L'Africain

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Ah xsane plus maintenu !! C'est bien dommage, ça va m'embêter, merci pour l'info.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#15 Le 14/01/2014, à 21:33

J5012

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Hors ligne

#16 Le 15/01/2014, à 19:32

L'Africain

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Ça veut dire quoi ? Que tant qu'il y a sane il y aura xsane ?


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#17 Le 16/01/2014, à 04:30

J5012

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

non

pourquoi ca t'embete que xsame ne soit plus maintenu ? as-tu un gnulinux non maintenu ? et pourquoi ?

xsane n'est que la gui ...

Hors ligne

#18 Le 17/01/2014, à 18:25

L'Africain

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Ça m'embête parce que je connais pas d'autres programme de scannage qui propose une option photocopie. Mais aussi xsane fait pas mal de chose, réunis en un seul programme, roc, multipages, photocopie. Mais je suis preneur, si vous avez des idées !


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#19 Le 17/01/2014, à 20:53

J5012

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

as-tu jete un oeil sur l'adresse en #15 ?

de celle-ci, kooka est celui officiellement maintenu pour kde (donc present sous kubuntu)
http://techbase.kde.org/Projects/Kooka

sinon pour gnome il semble que ce choix s'oriente vers gscan2pdf

tu peux aussi rester sur xsane tant qu'il sera fourni par les depots officiels ...

un logiciel plus maintenu ne veut pas forcement dire que plus personne ne s'en occupe :
- le logiciel est considere abouti
- le logiciel a completement ete devermine

Hors ligne

#20 Le 18/01/2014, à 00:21

Poun64

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Bonsoir toul'monde smile !

J5012 a écrit :

...sinon pour gnome il semble que ce choix s'oriente vers gscan2pdf...

On en revient donc au titre de ce topic et au problème que j'expose au premier post, à savoir :
Impossible de choisir dans "gscan2pdf" le choix de la langue française pour la ROC "tesseract" et ce, même si en ligne de commande ce choix est pleinement opérationnel avec "tesseract"...
C'est baloo quand-même...
hmm

Dernière modification par Poun64 (Le 18/01/2014, à 00:23)


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#21 Le 18/01/2014, à 18:32

gl38

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Après avoir compilé gscan2pdf, comme je l'ai dit plus haut, j'obtiens sur la page "OCR output" les mots de la page chacun dans son rectangle.
C'est agaçant, mais si on sauve, en pdf, (je ne vois pas comment faire autrement !) le fichier pdf obtenu (qui est vraiment petit) contient le texte que l'on peut attraper à la souris et mettre dans un éditeur de texte, avec même quelques fautes (1 à la place de !) pour être bien sûr qu'il y a eu reconnaissance optique.
Donc ça marche, mais ce n'est pas demain que c'est plus pratique que yagf et xsane !
Cordialement,
Guy

Hors ligne

#22 Le 18/01/2014, à 22:56

J5012

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

ce n'est pas parce qu'il y a une tendance vers gscan2pdf (position qui n'a pas ete officialisee) , que vous devez "abandonner" ce qui sied a vos objectifs, hein ! smile

Hors ligne

#23 Le 19/01/2014, à 01:48

Poun64

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

C'est sûr...
J'ai aussi une porte de secours qui semble sympa : utiliser un logiciel de Scan et de ROC qui m'a été livré avec ma multifonction laser HP.
Il s'appelle "Readiris pro 12", le peu que j'ai testé est pas mal...
Le hic, c'est qu'il fonctionne sous Windows...
J'ai maintenant deux raisons de garder un bout de Seven sur mon PC :
- la mise à jour de ma cartographie GPS Garmin,
- et maintenant la ROC.
smile


1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS  - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605

Hors ligne

#24 Le 19/01/2014, à 09:50

L'Africain

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Mais cuneiform avec xsane fonctionne très bien ainsi qu'ocrfeeder, pourquoi aller sous win pour cela?


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#25 Le 19/01/2014, à 11:14

gl38

Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf

Et OpenStreetMap pour Garmin, ça existe aussi !
Et le mariage de xsane avec tesseract avec xsane2tess marche.
Cordialement,
Guy

Hors ligne