#1 Le 06/01/2014, à 20:28
- Poun64
[Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Bonjour tout le monde !
J'essaie en vain de paramétrer en français la Reconnaissance Optique des Caractères (ROC) "Tesseract" sur le logiciel de Scan " Gscan2pdf".
Nota : Tesseract produit (et de loin) les meilleurs résultats de ROC, comparé aux deux autres moteurs proposés (GOCR et Cunéiforme).
Aux paquets installés automatiquement par la Logithèque Ubuntu, lors de l'installation de "Gscan2pdf", j'ai ajouté le paquet "tesseract-ocr-fra" à partir de Synaptic.
Rien n'y fait : dans la liste déroulante du choix de la langue Tesseract à reconnaître dans le paramétrage de Gsnan2pdf, il n'a que l'anglais comme choix... Sniff
Quelqu'un a-t-il réussi à le faire passer en français ?
Merci pour votre retour
Dernière modification par Poun64 (Le 21/01/2014, à 00:03)
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#2 Le 06/01/2014, à 21:27
- J5012
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
je l'utilise mais je n'ai rien installe d'autre ...
je me suis juste assure que tous les composants de traduction fr aient ete installes → module linguistique
Hors ligne
#3 Le 07/01/2014, à 00:07
- Poun64
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Bonsoir J5012 et merci pour ton retour
Qu'appelles-tu "module linguistique" ? De quel paquet parles-tu ?
Je n'ai installé en plus que le paquet "tesseract-ocr-fra", y en a-t-il d'autres à mettre ?
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#4 Le 07/01/2014, à 08:48
- J5012
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
les modules de localisation utilisent d'autres composants pour la localisation et la traduction comme wspell, et le module linguistique est le composant logiciel qui permet de definir le plus facilement les paquets de localisation necessaires et manquants ... tu le trouves dans le "dash" en tapant langue : "prise en charge des langues" ou dans parametres systeme ...
Hors ligne
#5 Le 07/01/2014, à 14:54
- Poun64
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
La prise en charge des langues complète (Français) était déjà OK...
Le traducteur "wspell" ne figure pas dans mes dépôts, il y a par contre les vérificateur d'orthographe "aspell" et son module "aspell-fr" d'installé.
Chez toi, tu peux sélectionner "Tesseract en Français" dans Gscan2pdf ?
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#6 Le 07/01/2014, à 15:04
- gl38
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Il faudrait vérifier que tesseract marche en français en ligne de commande :
tesseract image.jpg out.txt -l fra
Cordialement,
Guy
Hors ligne
#7 Le 07/01/2014, à 16:22
- gl38
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Il faut reconnaître que gscan2pdf ne veut pas marcher en autre chose qu'en anglais chez moi. Comme il y a yagf et la ligne de commande ça ne me gêne pas beaucoup !
Cordialement,
Guy
Hors ligne
#8 Le 07/01/2014, à 16:25
- Poun64
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
En ligne de commande ça fonctionne parfaitement avec reconnaissance du texte en français (lettres accentuées reconnues).
Ça a fonctionné sur des fichiers au format "jpg" et "png", mais pas au format "pdf"...
Je viens de découvrir un fil de discussion ici : http://forum.ubuntu-fr.org/viewtopic.ph … 22#p609122
Ya de quoi lire (21 pages) !
Peut-être que tu y as déjà participé...
Dernière modification par Poun64 (Le 07/01/2014, à 16:46)
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#9 Le 07/01/2014, à 21:02
- J5012
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
ha oui je vois : j'utilise gscan2pdf + tesseract depuis un bon moment (avant precise)
actuellement en effet l'option francais n'est ni visible ni selectionnable dans la config tesseract de gscan2pdf, je ne l'avais jamais remarque avant aujourd'hui sans doute par ce que :
- avant la version precise, elle etait affichee
- mes docs accentuees francais ont toujours ete correctement reconnues
c'est sans doute un probleme de la gui gtk : avec precise les appli sont partiellement migres avec gtk3
qqun sous 13.10 ou 14.04 peut confirmer ?
Hors ligne
#10 Le 08/01/2014, à 11:05
- gl38
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Si on compile la version 1.1.3 de gscan2pdf (en ajoutant les lib perl qui manquent et en ajoutant un paquet pour avoir sane 0.5) on a un menu correct pour tesseract avec les langues installées. Le résultat est bizarre : tous les mots sont dans des rectangles...
Bon, je préfère yagf qui fait ce que je veux.
Cordialement,
Guy
Hors ligne
#11 Le 14/01/2014, à 14:24
- L'Africain
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Je voudrais pas te contredire, mais j'utilise cunéiform dans xsane (en modifiant le paramètres de OCR par celui de cunéiform) et j'ai des résultats particulièrement bon, je pourrais même dire excellent. Il y a longtemps que j'ai abandonné gscanpdf pour ça, maitenant comme ça fait longtemps que j'ai pas utiliser gscan, peut-être s'est-il amélioré, et aurait rattrappé xsane, je ferais une fois un test.
Mais bon juste pour dire qu'avec xsane/cuneiform c'est impec.
Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42
Hors ligne
#12 Le 14/01/2014, à 16:03
- Poun64
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Bonjour toul'monde !
Le problème avec Xsane c'est que, si j'en crois la doc, il n'est plus maintenu depuis 2010 : http://doc.ubuntu-fr.org/ocr
S'il est ainsi abandonné, il arrivera bien un jour où il ne sera plus proposé dans les dépôts...
Dernière modification par Poun64 (Le 14/01/2014, à 16:03)
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#13 Le 14/01/2014, à 17:05
- Poun64
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Si on compile la version 1.1.3 de gscan2pdf (en ajoutant les lib perl qui manquent et en ajoutant un paquet pour avoir sane 0.5) on a un menu correct pour tesseract avec les langues installées. Le résultat est bizarre : tous les mots sont dans des rectangles...
En mettant la dernière version (gscan2pdf 1.2.2) via le PPA de Jeffrey Ratcliffe : https://launchpad.net/~jeffreyratcliffe/+archive/ppa on obtient le même résultat, à savoir :
- qu'on peut bien choisir la langue française !
- que tous les mots sont encadrés...
Inutilisable, donc...
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#14 Le 14/01/2014, à 17:43
- L'Africain
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Ah xsane plus maintenu !! C'est bien dommage, ça va m'embêter, merci pour l'info.
Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42
Hors ligne
#15 Le 14/01/2014, à 21:33
- J5012
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
xsane est une gui de sane : http://www.sane-project.org/sane-frontends.html
Hors ligne
#16 Le 15/01/2014, à 19:32
- L'Africain
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Ça veut dire quoi ? Que tant qu'il y a sane il y aura xsane ?
Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42
Hors ligne
#17 Le 16/01/2014, à 04:30
- J5012
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
non
pourquoi ca t'embete que xsame ne soit plus maintenu ? as-tu un gnulinux non maintenu ? et pourquoi ?
xsane n'est que la gui ...
Hors ligne
#18 Le 17/01/2014, à 18:25
- L'Africain
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Ça m'embête parce que je connais pas d'autres programme de scannage qui propose une option photocopie. Mais aussi xsane fait pas mal de chose, réunis en un seul programme, roc, multipages, photocopie. Mais je suis preneur, si vous avez des idées !
Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42
Hors ligne
#19 Le 17/01/2014, à 20:53
- J5012
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
as-tu jete un oeil sur l'adresse en #15 ?
de celle-ci, kooka est celui officiellement maintenu pour kde (donc present sous kubuntu)
http://techbase.kde.org/Projects/Kooka
sinon pour gnome il semble que ce choix s'oriente vers gscan2pdf
tu peux aussi rester sur xsane tant qu'il sera fourni par les depots officiels ...
un logiciel plus maintenu ne veut pas forcement dire que plus personne ne s'en occupe :
- le logiciel est considere abouti
- le logiciel a completement ete devermine
Hors ligne
#20 Le 18/01/2014, à 00:21
- Poun64
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Bonsoir toul'monde !
...sinon pour gnome il semble que ce choix s'oriente vers gscan2pdf...
On en revient donc au titre de ce topic et au problème que j'expose au premier post, à savoir :
Impossible de choisir dans "gscan2pdf" le choix de la langue française pour la ROC "tesseract" et ce, même si en ligne de commande ce choix est pleinement opérationnel avec "tesseract"...
C'est baloo quand-même...
Dernière modification par Poun64 (Le 18/01/2014, à 00:23)
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#21 Le 18/01/2014, à 18:32
- gl38
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Après avoir compilé gscan2pdf, comme je l'ai dit plus haut, j'obtiens sur la page "OCR output" les mots de la page chacun dans son rectangle.
C'est agaçant, mais si on sauve, en pdf, (je ne vois pas comment faire autrement !) le fichier pdf obtenu (qui est vraiment petit) contient le texte que l'on peut attraper à la souris et mettre dans un éditeur de texte, avec même quelques fautes (1 à la place de !) pour être bien sûr qu'il y a eu reconnaissance optique.
Donc ça marche, mais ce n'est pas demain que c'est plus pratique que yagf et xsane !
Cordialement,
Guy
Hors ligne
#22 Le 18/01/2014, à 22:56
- J5012
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
ce n'est pas parce qu'il y a une tendance vers gscan2pdf (position qui n'a pas ete officialisee) , que vous devez "abandonner" ce qui sied a vos objectifs, hein !
Hors ligne
#23 Le 19/01/2014, à 01:48
- Poun64
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
C'est sûr...
J'ai aussi une porte de secours qui semble sympa : utiliser un logiciel de Scan et de ROC qui m'a été livré avec ma multifonction laser HP.
Il s'appelle "Readiris pro 12", le peu que j'ai testé est pas mal...
Le hic, c'est qu'il fonctionne sous Windows...
J'ai maintenant deux raisons de garder un bout de Seven sur mon PC :
- la mise à jour de ma cartographie GPS Garmin,
- et maintenant la ROC.
1) Xubuntu 22.04._LTS + Windows 10 - Gigabyte GA H77M - Intel Core I7 3770K / HD Graphics 4000 - 4 cœurs - 3,5 Ghz - 16 Go de RAM
2) Xubuntu 22.04._LTS + Windows 11 - Gigabyte H610M S2H - Intel I3-12100 / UHD Graphics 730 intégré - 4 cœurs - 3,3 Ghz - 16 Go de RAM
3) Xubuntu 22.04._LTS - NetBook ACER TravelMate - Intel Celeron N4020 - 2 cœurs - 1,1 Ghz - 4 Go de RAM - Intel UHD Graphics 605
Hors ligne
#24 Le 19/01/2014, à 09:50
- L'Africain
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Mais cuneiform avec xsane fonctionne très bien ainsi qu'ocrfeeder, pourquoi aller sous win pour cela?
Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42
Hors ligne
#25 Le 19/01/2014, à 11:14
- gl38
Re : [Contourné] Mettre ROC en Français avec "Tesseract" sur Gscan2pdf
Et OpenStreetMap pour Garmin, ça existe aussi !
Et le mariage de xsane avec tesseract avec xsane2tess marche.
Cordialement,
Guy
Hors ligne