Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".

#501 Le 04/05/2012, à 15:30

cyberic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je trouve que LibreOffice livrée avec la 12.04 fonctionne vraiment très bien.:)


- Asus S1-AT5NM10E - Ubuntu 14.04 (64 bits) - Intel® Atom™ D525 (onboard) Processor Socket 775 / integrated NVIDA ION II GT218. Chromium.
- Nexus7 (2013) 32 Go  Androïd 4.4.2
- Motorola MotoG 8 Go  Androïd 4.4.2

Hors ligne

#502 Le 06/12/2012, à 21:56

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut les amis,

Je viens d'installer un nouvel ordi avec Ubuntu 12.04 LTS. J'ai installé tesseract 3.02 par synaptic, et xsane2tess en installant moi-même le script à la main comme indiqué dans la documentation Ubuntu francophone sur xsane2tess. J'ai suivi les autres consignes de cette doc pour l'utilisation de xsane2tess, puis j'ai testé l'ocr : tout fonctionne parfaitement. La doc sur xsane2tess est donc toujours à jour.

J'ai lu les messages depuis mon dernier passage par ici... Je découvre surtout la nouveauté de OCRFeeder... Peut-être testerai-je, même si je suis très satisfait de la solution tesseract + xsane2tess, à laquelle je suis habitué... L'intérêt de OCRFeeder est peut-être de sortir des fichiers odt...

P.S. : le message précédent a-t-il un rapport avec l'OCR ? Est-ce qu'il y aurait maintenant un système d'OCR intégré à LibreOffice ?

Dernière modification par Sorbus (Le 06/12/2012, à 21:57)

Hors ligne

#503 Le 02/03/2013, à 21:01

ben.gun

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,
après avoir essayé Gocr et Cuneiform je trouve également que cette combinaison (Xsane2 + tesseract) fonctionne le mieux. Je teste OCRfeeder mais il n'arrive pas à numériser jusqu'à présent... à voir.

Hors ligne

#504 Le 08/02/2014, à 13:58

Freedomsha

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sous Ubuntu 12.04.

Bon j'ai essayé OCRFeeder, obtenir un fichier odt à partir d'un pdf (le rêve!)

Donc j'ouvre OCRFeeder, Fichier/Importer un pdf. Après plusieurs minutes, plantage.
Après quelques lectures, il nécessite d'utiliser Gimp pour avoir des fichiers Tiff.
L'import du fichier pdf fait planter Gimp aussi. Il ne me permettra que de transformer 10 pages par 10 pages.
Soit 1 image .Tiff ≃20Mo /page, donc du Lourd.
J'importe ces 10 pages dans OCRFeeder, je ne sais plus si c'est l'import ou la reconnaissance qui a planté, en tout cas, il a fallu que je passe à 5 pages pour obtenir un résultat:
des fichiers odt de 5 pages.
positionnement des cases presque identique à la reconnaissance de caractère
avec les images au bon endroit
petit hic:
la mise en page sera à refaire presque totalement
trop de cases dans le fichier odt.
la police avait changé à cause de mes modifications.
Conclusion: J'avais encore pas mal de boulot pour obtenir un odt correct. J'étais limité par la place prise par les images Tiff sachant que le livre fait 230 pages!

j'essais gImageReader, bof, rien de plus, résultat en txt, aucun intérêt! Des plantages!

J'essais YAGF puisqu'ils en parlent sur Ubuntu.
Vu que je m'étais fait la main avec OCRFeeder, la prise en main est facile, graphiquement, il est beau.
Là, 10 pages Tiff fonctionnent mais le résultat est en txt.
Bon quitte à refaire la mise en page utiliser un txt sera plus simple que de transformer un odt.
Après avoir reconnu les 90 tiff qui me restaient. J'essais l'import de pdf, il a besoin d'un dossier vide, mais je dois importer seulement 5 pages pour éviter qu'il plante.
Heureusement, j'obtiens des fichiers légers png, il bug un peu après l'import, où il m'affiche plusieurs fois les mêmes pages. Je préfère le redémarrer.
Le résultat à partir de fichiers png semble aussi bon qu'avec les tiff.

Conclusion: Pour gagner en nombre de manipulation, je vais continuer avec YAGF, tant pis pour l'odt.
Bien faire attention que la première prise en compte pour l'ordre des cases est de gauche à droite puis du haut vers le bas. Donc veiller à ce que votre 1ère case soit la plus à gauche, les suivantes de plus en plus à droite.
OCRFeeder est à suivre car le seul à pouvoir obtenir des fichiers pour office directement.(!!!la suite de la discution me contredira puisqu'il existe OCRector !!!)
Tout s'est fait avec Tesseract.

Dernière modification par Freedomsha (Le 09/02/2014, à 13:25)

Hors ligne

#505 Le 08/02/2014, à 17:34

Ner0lph

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour info, Tesseract ne sait pas reproduire la mise en forme : il ne sort que du texte ou une sorte de HTML dans lequel des balises span indique la position du caractère ou du mot reconnu dans l'image originale.

Ceci explique donc cela.

Dernière modification par Ner0lph (Le 08/02/2014, à 17:35)

Hors ligne

#506 Le 08/02/2014, à 22:54

Freedomsha

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

En tout cas des 4 (Tesseract, OCRad, GOCR et Cuneiform) avec OCRFeeder, Tesseract reste le seul à reconnaître les bons sauts de ligne.
OCRFeeder a du mal à reconnaître les colonnes. YAGF les reconnaît mais ne les met pas forcement dans l'ordre approprié.
Tesseract dans YAGF ne fait pas les sauts de ligne!
Honnêtement, pour un résultat de qualité de moins de 10 pages, je conseille OCRFeeder, mais pour énormément de page je passerais à YAGF qui utilise des fichiers beaucoup plus légers.

Dernière modification par Freedomsha (Le 08/02/2014, à 23:09)

Hors ligne

#507 Le 09/02/2014, à 09:56

libelul

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'utilise ocrector qui ne fait pas le scan, il faut lui fournir les images mais par contre il fusionne les pages OCRisées du projet en odt.
Le choix du moteur OCR est comme d'habitude cuneiform ou tesseract.
Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.

Dernière modification par libelul (Le 19/02/2014, à 07:11)

Hors ligne

#508 Le 09/02/2014, à 13:21

Freedomsha

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci, libelul, je viens de le tester pour voir. Il n'était pas dans les dépôts.
premier étonnement, pas de zonage! il travaille sur l'image entière.
Tesseract a eu une bonne reconnaissance des colonnes et des sauts de ligne.(cuneiform n'a pas reconnu les saut de ligne)
L'enregistrement est vraiment intéressant, on a le choix entre ODF, html ou text.
Par contre, les images ne sont pas prises en compte pour le résultat final.(ce qui aurait été intéressant pour les mise en page ODF et html)
Le résultat final reste très brut.

libelul a écrit :

Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.

C'est vrai que les mots soulignés posent quelques problèmes.

Hors ligne

#509 Le 09/02/2014, à 16:40

libelul

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Freedomsha a écrit :

pas de zonage! il travaille sur l'image entière

Effectivement. Sur le site ils disent qu'il est préférable de faire un pré-traitement avec par exemple scantailor.
Je le conseille également, la reconnaissance est bien meilleure !

Hors ligne

#510 Le 08/03/2014, à 10:50

nknico

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour à tous,

Je me sert très souvent de l'interface OCR feeder pour faire de la reconnaissance de caratères avec le moteur tesseract.

Seulement depuis que je suis passé à 13.10, la version de ocrfeeder des dépôts est horriblement buggée, ça freeze quand je veux importer un pdf, ça freeze dès que je veux toucher une option de l'interface ou un paramètres du moteur.

J'arrive à m'en servir quand même en transformant mes pdf en jpg auparavant, mais c'est tout de même pénible.

Vous avez une idée de comment régĺer le problème ? J'ai essayé de passer pas gscan2pdf mais il ne trouve pas le moteur tesseract installé...

Merci d'avance !


Nico

Hors ligne

#511 Le 11/03/2014, à 12:41

nknico

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Personne n'est en mesure de m'aider ? C'est vraiment un problème important, ocrfeeder est un de mes outils de travail principaux.


Nico

Hors ligne

#512 Le 20/03/2014, à 18:09

nknico

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

up


Nico

Hors ligne

#513 Le 16/04/2014, à 18:55

Fgermin

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour

Je recherche un développeur avec une bonne  connaissance d'un OCR en opensource pour le développement d'une application.
Si intéressé, pouvez-vous me contacter : 0676282477;
mercu

Hors ligne

Haut de page ↑