Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites". Attention, le forum rencontre actuellement quelques difficultés. En cas d'erreur 502, il ne faut pas re-valider l'envoi d'un message ou l'ouverture d'une discussion, au risque de créer un doublon.

La section divers se réorganise ! De nouvelles sous-sections à venir. (plus d'infos + donner son avis)

#451 Le 19/02/2011, à 14:22

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Tu fais bien de le signaler : je pensais que le paquet que tu cites s'installait en même temps que l'autre.
Merci !

Hors ligne

#452 Le 22/02/2011, à 18:28

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour les amis,

Merci à Bushman02 de suivre le fil wink
D'après vos indications, je viens de compléter la doc sur xsane2tess.

J'ai relu le fil depuis un an. Je vois des questions à suivre, mais je ne sais si j'en aurai le temps...
- ou en est tesseract-ocr ?
- l'intérêt du deb de b52... et un portage de ce deb pour la dernière version de tesseract-ocr...
- tester cuneiform (je n'imaginais pas qu'une piste "libre" autre que tesseract pouvait donner actuellement de bons résultats... quoi que... en juillet 2008 - c'est vieux - Leonux avait obtenu de très bons résultats avec ocrad, mais son tuto n'est plus en ligne)
- où en est la dernière version de tesseract ?
- où en est Ocropus ?

J'avoue que depuis un an, j'ai peu suivi les évolutions... mais il doit y en avoir !

Dernière modification par Sorbus (Le 22/02/2011, à 19:38)

Hors ligne

#453 Le 23/02/2011, à 00:30

rmy

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut Sorbus, je suis le fil de loin, j'ai toujours tout lu, mais jamais eu le temps de tester… bref, pas plus d'infos de ma part pour l'instant.


récupération de données : vractopic uniquemon site pro : www.diskcard.fr
Je récupère et recycle volontiers tous vos disques durs HS (ou pas).
BLACKOUT

Hors ligne

#454 Le 23/02/2011, à 09:10

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut, Sorbus ! Content de te revoir passer par ce fil.
Il est toujours dans la rubrique "Mes messages" et j'essaie de répondre aux quelques questions posées, tant qu'elles ne dépassent pas mes compétences.
- Merci d'avoir mis à jour la doc d'xsane2tess.
- Le deb de B52 me semble toujours d'actualité puisqu'il permet une installation plus simple pour ceux qui le désirent.
- J'ai fait quelques essais avec Cuneiform, mais sans plus. Les résultats me semblaient moins satisfaisants que ce qu'on peut obtenir avec Tesseract ou même Ocropus.
Ces derniers fonctionnent très bien sous Crunchbang (que j'essaie depuis presque un an en parallèle avec Ubuntu). Ils figurent dans les dépôts.Tesseract s'installe avec l'anglais par défaut : je l'utilise en rajoutant le paquet -fra. Les paquets pour ces deux langues suffisent à mes besoins. Ma dernière utilisation "intensive" a consisté à saisir, avec scan + xsane2tess, 110 pages de français en corps 12. Le rendement a été très bon.
- N.B. : Tesseract-gui continue à tourner impeccablement aussi bien sous Ubuntu que sous Crunchbang.
À bientôt !

Hors ligne

#455 Le 26/02/2011, à 10:54

Papy Octet

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

bonjour,
Voilà, je suis de passage sur ce fil et je vous fait part de mes expériences d'OCR.

J'ai des documents imprimés sur plusieurs colonnes et dont je ne dois "récupérer" que certaines parties de texte.
Là, quand je compare avec ReadIris Pro ... y'a pas photo ! Et la possibilité de sélectionner des parties de document à reconnaître, de séparer textes et images, de conserver la mise en page, ... faut oublier.
Alors je travaille en 2 temps :
1. Avec XSane, je scanne les parties que je veux récupérer, chacune dans une image différente en tons de gris à 300 DPI et que j'enregistre au format tif.
2. Dans gscan2pdf 0.9.29, je charge les différentes photos et lance alors la reconnaissance avec Tesseract.

Et là, j'ai un résultat plus que correct avec très peu de fautes de reconnaissance dans les caractères mais j'essaye d'éviter les polices "folkloriques".

J'ai vainement essayé de pouvoir reconnaître les caractères avec tesseract directement au départ de XSane. J'ai essayé plusieurs tutos. Aucun ne fonctionne chez moi. J'ai renoncé à faire d'autres essais et j'applique ma méthode qui me satisfait puisque je n'ai pas des centaines de textes à reconnaître par semaine, tout au plus une dizaine de pages A4 par mois.

C'est certes un peu plus fastidieux qu'avec RedIris mais quand on veut rester libre ... il faut bien faire des concessions.

Voilà, c'était juste pour faire avancer le schlimili, schimimi, schilimblick, schmilblick.

A+

Dernière modification par Papy Octet (Le 26/02/2011, à 14:36)


AMD A6-3500 HD6530D 2.1 ghz Triple core FM1 3mb - CM GIGABYTE GA-A75M-UD2H - 8 GiO ram DDR3 - HDD 1TO WD GREEN + WD Gaviar Black 1TO + externe IOMEGA 500GiO - Carte écran nvidia GeForce 210 Silent avec 1GiO cache DDR3 - Ubuntu
Portable HP - Intel Centrino - 1 Go DDR2 - DD 120 Go - Mint 14
Imprim. Samsung ML-1670 et CLP-315, scanner Epson Perfection V30, ... Linuxgraphic.org, LibreOffice.org

Hors ligne

#456 Le 26/02/2011, à 11:15

compte supprimé

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour sorbus, niveau "nouveautés" :
Tesseract 3.00 est sorti ! Mais n'est pas encore packagé.
Il utilise une nouvelle dépendance pour traiter plus de formats d'image : leptonica.
Et utilise un nouveau système pour les langues.
J'ai envoyé un mail au créateur de tesseract-gui, peut-être qu'il mettra son programme à jour ! smile

#457 Le 27/02/2011, à 09:24

Bushman02

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

@ Papy Octet (j'ai failli écrire Papy Mougeot)
Deux ou trois suggestions (ce ne sont que des suggestions...) susceptibles de te simplifier la vie :
-- au lieu de scanner en .tiff tu peux scanner en .jpg (toujours à 300 dpi). Il me semble que c'est un peu plus rapide.
-- ensuite, au lieu d'utiliser gscan2pdf, tu peux avoir recours au script donné en 3.5 par Sorbus dans la section de la doc "tesseract-ocr" (besoin d'un seul script pour  les extensions jpg et png : il suffit de d'intervertir celles-ci le cas échéant et le script reconnaît le fichier). Le lancement est immédiat et les résultats sont aussi bons qu'avec gcsan2pdf, si on évite les polices "folkloriques" bien sûr.
-- au cas où tu aurais besoin de reconnaître un texte de deux ou plusieurs colonnes dans son ensemble, tu peux avoir aussi de bons résultats avec Ocropus.
-- pour ce qui est de la reconnaissance directe à partir du scanner, la page de la doc sur Xsane2tess et les conseils donnés par Sorbus sur cette même page permettent aussi d'aller plus vite, avec les mêmes résultats.
Cela dit simplement pour essayer de te faire gagner un peu de temps. Tu as mis au point ta méthode, elle fonctionne et nous avons tous qu'à partir des mêmes données, deux machines peuvent donner des résultats différents.
Bonnes Roc !

Hors ligne

#458 Le 27/02/2011, à 11:21

Papy Octet

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut Bushman02,

Oh-là, Papy Mougeot ... c'est mon grand oncle par alliance (2m10 sans ses chaussures !) tongue
Pour un peu répondre à tes suggestions :
- Je scanne en .tif parce que j'ai remarqué une meilleure reconnaissance des caractères (surtout ceux en italique) qu'avec le fichier en jpg malgré une définition de 300 dpi. Peut-être à cause de la compression qui peut fort bien diminuer la "résolution" des gris.
- J'ai essayé les scripts dont tu fais allusion mais je n'ai pas eu les résultats escomptés : plantage de l'application, ou alors rien du tout.
- Ocropus fonctionne mais le nombre d'erreurs lors de la reconnaissance est dramatique.
- les conseils de Sorbus ? Pas encore tout lu.

Mais dès que j'aurai un peu mieux le temps ... j'irai probablement relire tout ça.
Merci pour les conseils.

Dernière modification par Papy Octet (Le 27/02/2011, à 11:23)


AMD A6-3500 HD6530D 2.1 ghz Triple core FM1 3mb - CM GIGABYTE GA-A75M-UD2H - 8 GiO ram DDR3 - HDD 1TO WD GREEN + WD Gaviar Black 1TO + externe IOMEGA 500GiO - Carte écran nvidia GeForce 210 Silent avec 1GiO cache DDR3 - Ubuntu
Portable HP - Intel Centrino - 1 Go DDR2 - DD 120 Go - Mint 14
Imprim. Samsung ML-1670 et CLP-315, scanner Epson Perfection V30, ... Linuxgraphic.org, LibreOffice.org

Hors ligne

#459 Le 09/05/2011, à 13:13

kordonnier

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Écriture manuscrite ?

Je me suis acheté un Irisnotes (http://www.irislink.com/c4-1626-225/IRI … fAodiC-WuQ)
Je parviens à récupérer une image de  mes notes manuscrites sous Kubuntu (voir http://forum.ubuntu-fr.org/viewtopic.php?id=441297)
L'appareil est fourni avec un système d'OCR qui permet de transformer l'écriture manuscrite en *.txt.
Est-ce que quelqu'un a déjà testé quelque chose qui ferait l'équivalent sous Linux ?

Hors ligne

#460 Le 19/05/2011, à 08:26

Papy Octet

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Tu as regardé ce post ?


AMD A6-3500 HD6530D 2.1 ghz Triple core FM1 3mb - CM GIGABYTE GA-A75M-UD2H - 8 GiO ram DDR3 - HDD 1TO WD GREEN + WD Gaviar Black 1TO + externe IOMEGA 500GiO - Carte écran nvidia GeForce 210 Silent avec 1GiO cache DDR3 - Ubuntu
Portable HP - Intel Centrino - 1 Go DDR2 - DD 120 Go - Mint 14
Imprim. Samsung ML-1670 et CLP-315, scanner Epson Perfection V30, ... Linuxgraphic.org, LibreOffice.org

Hors ligne

#461 Le 21/05/2011, à 11:21

L'Africain

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Boujour,
Je n'arrive pas à faire fonctionner ocropus, voilà ce qu'il me répond :

./ocr-utils/ocr-utils.cc:83 FAILED ASSERT (WARNING) average_border_intensity<=127 || average_border_intensity>=128
ocroscript: /usr/share/ocropus/scripts//recognize.lua:180: essai.html: file has an unknown extension

Je n'ai trouvé personne qui ai le même problème que moi, je me permet donc de demander, merci d'avance.


Ubuntu 14.04 LDLC (clevo) lifetec Lubuntu 14.04 32 bits Xubuntu 14.04 32 bits sur asus
"L'accomplissement parfait de la loi c'est l'amour" St Paul aux Romains

Hors ligne

#462 Le 23/05/2011, à 14:52

Papy Octet

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

En effet, c'est curieux car le code de l'application devrait gérer ce problème.

    int average_on_border(colib::bytearray &a) {
        int sum = 0;
        int right = a.dim(0) - 1;
        int top = a.dim(1) - 1;
        for(int x = 0; x < a.dim(0); x++)
            sum += a(x, 0);
        for(int x = 0; x < a.dim(0); x++)
            sum += a(x, top);
        for(int y = 1; y < top; y++)
            sum += a(0, y);
        for(int y = 1; y < top; y++)
            sum += a(right, y);
        // If average border intensity is between 127-128, inverting the
        // image does not work correctly
        float average_border_intensity = sum / ((right + top) * 2.0);
        ASSERTWARN(average_border_intensity<=127 || average_border_intensity>=128);
        return sum / ((right + top) * 2);
    }

Il faudrait vérifier l'origine de la version de ce logiciel et éventuellement recharger les bons paquets ici.

Il faudrait également donner un peu plus de détails sut ton installation : OS, version du logiciel, quelques infos sur ton matos ( processeur, ram, formatage partitions, ...). (On peut placer cela dans son profil perso - vois ceux déjà existants).
Ça aide à la compréhension du problème wink .

A+

Dernière modification par Papy Octet (Le 23/05/2011, à 14:56)


AMD A6-3500 HD6530D 2.1 ghz Triple core FM1 3mb - CM GIGABYTE GA-A75M-UD2H - 8 GiO ram DDR3 - HDD 1TO WD GREEN + WD Gaviar Black 1TO + externe IOMEGA 500GiO - Carte écran nvidia GeForce 210 Silent avec 1GiO cache DDR3 - Ubuntu
Portable HP - Intel Centrino - 1 Go DDR2 - DD 120 Go - Mint 14
Imprim. Samsung ML-1670 et CLP-315, scanner Epson Perfection V30, ... Linuxgraphic.org, LibreOffice.org

Hors ligne

#463 Le 29/05/2011, à 19:58

L'Africain

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'ai des difficultés pour acceder à l'internet, donc excusez-moi si je ne réagis pas rapidement. Je suis sur la 10.04, Toshiba satellite Pro, 2G de ram en dualboot avec une partition commune.
La version d'Ocropus est la 0.3.2-1, ocropus-data est installé les paquets tidy aussi. C'est quoi les lignes de commandes dans ton message papy octet ?
Merci d'avance


Ubuntu 14.04 LDLC (clevo) lifetec Lubuntu 14.04 32 bits Xubuntu 14.04 32 bits sur asus
"L'accomplissement parfait de la loi c'est l'amour" St Paul aux Romains

Hors ligne

#464 Le 14/06/2011, à 12:27

steph33560

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Hello,

je recherche une solution d'OCR/ICR capable de détecter des zones type case à cocher, bouton radio, ...
Je dois numériser des formulaires genre CERFA avec beaucoup de cases à cocher, boutons radio, et des zones de saisie manuscrite libre.

En payant/fermé, j'ai des solutions, mais a priori les softs open source ne proposent pas ce genre de chose ;
1. Suis-je enduis d'erreur ? ;-)
2. Des idées pour me réorienter ?

Merci ! smile

Hors ligne

#465 Le 14/06/2011, à 19:45

compte supprimé

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

steph33560 a écrit :

Hello,

je recherche une solution d'OCR/ICR capable de détecter des zones type case à cocher, bouton radio, ...
Je dois numériser des formulaires genre CERFA avec beaucoup de cases à cocher, boutons radio, et des zones de saisie manuscrite libre.

En payant/fermé, j'ai des solutions, mais a priori les softs open source ne proposent pas ce genre de chose ;
1. Suis-je enduis d'erreur ? ;-)
2. Des idées pour me réorienter ?

Merci ! smile

Tesseract reconnait pas mal de caractères, comme des ligatures (et il en fout partout en plus !).
Donc si ça se trouve, il te substituera les cases à cocher par le caractère idoine. smile

#466 Le 24/08/2011, à 21:55

SDG2015

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bojour à tous,

J'ai un petit problème avec Open Office Writer. Je ne sais pas quel est la version, mais comme j'ai réinstallé Ubuntu il y a une semaine, et que je fait les mise à jour...

Mon petit problème est le suivant, je n'arrive pas à exporté mes document en PDF de façon à ce qu'il soient protégés. Pas de copie de contenu, pas de modifications et pas d'impression.

Évidement, je passe par fichier > exporter au format PDF > sécurité et j'entre un mot de passe d'autorisation pour ensuite sélectionner Impression non autorisée,  modification non autorisé et je désactive Autorisé la copie de contenu. Puis Exporter.

J'obtiens un fichier PDF je l'ouvre en double cliquant ... et je peu copier le contenu, l'imprimer..etc et si je regarde dans fichier> propriétés... ça m'indique sécurité : non

Si j'ouvre à nouveau mon doc. et que je retourne dans  fichier > exporter au format PDF > sécurité, mais sans entrer de mot de passe... je vois que les sélection sont OK. ( Impression: non autorisée,  modification: non autorisé...) j'ai donc exporter de nouveau (sans entrer de mot de passe puisque les sélection son OK)... Même résultat... le fichier PDF n'est toujours pas sécurisé.

Donc:
1-Soit cette fonction ne fonctionne pas,
2-soit je suis un crétin.
Comme l'option 2 est plus probable, je demande un coup de main.

Merci
SDG2015

Hors ligne

#467 Le 25/08/2011, à 08:51

compte supprimé

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut ! smile
En fait, c'est tout simple : evince (le lecteur de pdf par défaut de ubuntu) ne respecte pas les protections. tongue
Essaie avec adobe reader pour voir : je viens de faire le test, tout "marche"* comme il faut.

*(à mort les protections ! mad) tongue

#468 Le 25/08/2011, à 11:40

SDG2015

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour monsieurweller,

Donc je ne suis pas trop crétin... disons plutôt novice avec Linux.

J'ouvrais déjà mon doc PDF avec adode reader et il n'était quand même pas protégé . Donc j'ai évincé (Suprimé) evince de mes programmes, et j'ai recommencé l'opération à partir de open office et maintenant, mon doc est protégé. Cela a-t-il quelque chose à voire !??! peu importe. Merci du conseil.

Ceci dit, si quelqu'un ouvre ce doc avec evince, pourra-t-il le modifier ou en copier des parties. Je ne suis pas du genre frileux mais, pour ce doc c'est important.

Merci encore
SDG2015

Dernière modification par SDG2015 (Le 25/08/2011, à 11:41)

Hors ligne

#469 Le 25/08/2011, à 12:17

compte supprimé

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

SDG2015 a écrit :

Ceci dit, si quelqu'un ouvre ce doc avec evince, pourra-t-il le modifier ou en copier des parties. Je ne suis pas du genre frileux mais, pour ce doc c'est important.

Il pourra faire ce qu'il veut, et c'est vrai pour une très grande partie des lecteurs PDF disponibles tout OS confondus. hmm
La seule protection universelle et efficace pour les PDF, c'est l'accès par mot de passe (si la personne n'a pas le password, elle ne peut pas ouvrir le PDF, donc).

#470 Le 25/08/2011, à 16:06

SDG2015

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour monsieursweller,

Ouais! C'est bon à savoir.
Finalement, on peut que l'option 1 n'était pas tout à fait fausse...

Je ne vois pas quoi dire de plus que "à mort les protections !"

Merci pour tes réponses judicieuses.
À une prochaine fois.

Hors ligne

#471 Le 30/08/2011, à 08:22

fralyon

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Si l'OCR sous linux est si complexe
existe t il la possibilité d'avoir depuis un fichier image,
un fichier pdf avec le texte issu de l'OCR masqué ?

Hors ligne

#472 Le 21/11/2011, à 19:12

siscard

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

Cuneiform 0.7.0 me renvoie "Erreur de segmentation" lorsque je lui demande en ligne de commande de reconnaitre un texte en jpg pour le restituer en RTF.

->cuneiform -l fra -f rtf -o salaison.rtf salaison.jpg
->Cuneiform for Linux 0.7.0
->Erreur de segmentation

Par ailleurs, il ne fonctionne pas du tout sous Xsane 0.998 alors qu'il a très bien fonctionné avant hier avant que je ne tente (un peu trop vite )  des logiciels audio, auxquels j'ai renoncé et désinstallé. Peut être j'ai oublié quelque chose ?

Tesseract lui fonctionne dans les 2 méthodes dans les 2 cas, sans restitution de la mise en page mais c'est ennuyeux de remettre les colonnes en place(donc convient pour du texte sur une colonne sans image). Pour cunéiform, je n'ai pas mis le script en place comme pour tesseract, car je n'ai pas trouvé quelles modification il fallait faire; ceci dit, cela ne me gène pas de l'utiliser en mode console pour ce que je veux faire (compiler des articles de presse professionnels assez courts sur plusieurs colonnes avec des images et des tableaux).

Par acquit de conscience, j'ai refait l'installation après suppression des paquets par Synaptic, mais rien de mieux.

Je voudrai savoir aussi s'il sait reconnaitre les cadres de tableaux (caractères semi-graphiques):)



Si quelqu'un peut m'aider sur ces 2 points ça serait super...
Merci d'avance cool

Hors ligne

#473 Le 22/11/2011, à 06:38

siscard

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour à tous,

Ce matin, l'erreur de segmentation a disparu: mais c'est Magick qui ne sais plus lire .jpg.
Je vais tenter de le réinstaller.
Précision : je suis revenu sous Natty 11.04. Ocelot 11.10 rendait certains logiciels instables notamment QGIS et Synaptic.

Hors ligne

#474 Le 22/11/2011, à 06:58

siscard

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

C'est pas mieux. même en tif, l'erreur  c'est :
Magick: unable to open image `salaison.tif':  @ error/blob.c/OpenBlob/2498

Grand merci à l'âme charitable

Hors ligne

#475 Le 22/11/2011, à 07:33

siscard

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Oups, j'avais oublié tout simplement de me loger dans le répertoire ad-hoc.

Et ça marche. Cuneiforme avec l'option rtf pour les textes en colonnes, Tesseract pour les textes simple colonne, mais il vaut mieux enlever les images dans les 2 cas et le copier dans le document final.

Si qq'un veut bien m'indiquer les modifications à faire au script, je suis preneur
:cool:Merci

Hors ligne

Haut de page ↑