Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".
Test de l'ISO d'Ubuntu francophone : nous avons besoin de testeurs pour la version francophone d'Ubuntu 14.04. Liens et informations ici.

#501 Le 04/05/2012, à 15:30

cyberic

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Je trouve que LibreOffice livrée avec la 12.04 fonctionne vraiment très bien.:)


- Asus S1-AT5NM10E - Ubuntu 14.04 (64 bits) - Intel® Atom™ D525 (onboard) Processor Socket 775 / integrated NVIDA ION II GT218 / DD 160Go+RAM 4 Go(2x2)+Chromium.
- Nexus7 (2013) 32 Go  Androïd 4.4.4  &  Motorola MotoG 8 Go  Androïd 4.4.4
  * Libre Office + Print Friendly & PDF + VLC et le coup de coeur "SweetHome"

Hors ligne

#502 Le 06/12/2012, à 21:56

Sorbus

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut les amis,

Je viens d'installer un nouvel ordi avec Ubuntu 12.04 LTS. J'ai installé tesseract 3.02 par synaptic, et xsane2tess en installant moi-même le script à la main comme indiqué dans la documentation Ubuntu francophone sur xsane2tess. J'ai suivi les autres consignes de cette doc pour l'utilisation de xsane2tess, puis j'ai testé l'ocr : tout fonctionne parfaitement. La doc sur xsane2tess est donc toujours à jour.

J'ai lu les messages depuis mon dernier passage par ici... Je découvre surtout la nouveauté de OCRFeeder... Peut-être testerai-je, même si je suis très satisfait de la solution tesseract + xsane2tess, à laquelle je suis habitué... L'intérêt de OCRFeeder est peut-être de sortir des fichiers odt...

P.S. : le message précédent a-t-il un rapport avec l'OCR ? Est-ce qu'il y aurait maintenant un système d'OCR intégré à LibreOffice ?

Dernière modification par Sorbus (Le 06/12/2012, à 21:57)

Hors ligne

#503 Le 02/03/2013, à 21:01

ben.gun

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,
après avoir essayé Gocr et Cuneiform je trouve également que cette combinaison (Xsane2 + tesseract) fonctionne le mieux. Je teste OCRfeeder mais il n'arrive pas à numériser jusqu'à présent... à voir.

Hors ligne

#504 Le 08/02/2014, à 13:58

Freedomsha

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sous Ubuntu 12.04.

Bon j'ai essayé OCRFeeder, obtenir un fichier odt à partir d'un pdf (le rêve!)

Donc j'ouvre OCRFeeder, Fichier/Importer un pdf. Après plusieurs minutes, plantage.
Après quelques lectures, il nécessite d'utiliser Gimp pour avoir des fichiers Tiff.
L'import du fichier pdf fait planter Gimp aussi. Il ne me permettra que de transformer 10 pages par 10 pages.
Soit 1 image .Tiff ≃20Mo /page, donc du Lourd.
J'importe ces 10 pages dans OCRFeeder, je ne sais plus si c'est l'import ou la reconnaissance qui a planté, en tout cas, il a fallu que je passe à 5 pages pour obtenir un résultat:
des fichiers odt de 5 pages.
positionnement des cases presque identique à la reconnaissance de caractère
avec les images au bon endroit
petit hic:
la mise en page sera à refaire presque totalement
trop de cases dans le fichier odt.
la police avait changé à cause de mes modifications.
Conclusion: J'avais encore pas mal de boulot pour obtenir un odt correct. J'étais limité par la place prise par les images Tiff sachant que le livre fait 230 pages!

j'essais gImageReader, bof, rien de plus, résultat en txt, aucun intérêt! Des plantages!

J'essais YAGF puisqu'ils en parlent sur Ubuntu.
Vu que je m'étais fait la main avec OCRFeeder, la prise en main est facile, graphiquement, il est beau.
Là, 10 pages Tiff fonctionnent mais le résultat est en txt.
Bon quitte à refaire la mise en page utiliser un txt sera plus simple que de transformer un odt.
Après avoir reconnu les 90 tiff qui me restaient. J'essais l'import de pdf, il a besoin d'un dossier vide, mais je dois importer seulement 5 pages pour éviter qu'il plante.
Heureusement, j'obtiens des fichiers légers png, il bug un peu après l'import, où il m'affiche plusieurs fois les mêmes pages. Je préfère le redémarrer.
Le résultat à partir de fichiers png semble aussi bon qu'avec les tiff.

Conclusion: Pour gagner en nombre de manipulation, je vais continuer avec YAGF, tant pis pour l'odt.
Bien faire attention que la première prise en compte pour l'ordre des cases est de gauche à droite puis du haut vers le bas. Donc veiller à ce que votre 1ère case soit la plus à gauche, les suivantes de plus en plus à droite.
OCRFeeder est à suivre car le seul à pouvoir obtenir des fichiers pour office directement.(!!!la suite de la discution me contredira puisqu'il existe OCRector !!!)
Tout s'est fait avec Tesseract.

Dernière modification par Freedomsha (Le 09/02/2014, à 13:25)

Hors ligne

#505 Le 08/02/2014, à 17:34

Ner0lph

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Pour info, Tesseract ne sait pas reproduire la mise en forme : il ne sort que du texte ou une sorte de HTML dans lequel des balises span indique la position du caractère ou du mot reconnu dans l'image originale.

Ceci explique donc cela.

Dernière modification par Ner0lph (Le 08/02/2014, à 17:35)

Hors ligne

#506 Le 08/02/2014, à 22:54

Freedomsha

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

En tout cas des 4 (Tesseract, OCRad, GOCR et Cuneiform) avec OCRFeeder, Tesseract reste le seul à reconnaître les bons sauts de ligne.
OCRFeeder a du mal à reconnaître les colonnes. YAGF les reconnaît mais ne les met pas forcement dans l'ordre approprié.
Tesseract dans YAGF ne fait pas les sauts de ligne!
Honnêtement, pour un résultat de qualité de moins de 10 pages, je conseille OCRFeeder, mais pour énormément de page je passerais à YAGF qui utilise des fichiers beaucoup plus légers.

Dernière modification par Freedomsha (Le 08/02/2014, à 23:09)

Hors ligne

#507 Le 09/02/2014, à 09:56

libelul

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

J'utilise ocrector qui ne fait pas le scan, il faut lui fournir les images mais par contre il fusionne les pages OCRisées du projet en odt.
Le choix du moteur OCR est comme d'habitude cuneiform ou tesseract.
Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.

Dernière modification par libelul (Le 19/02/2014, à 07:11)

Hors ligne

#508 Le 09/02/2014, à 13:21

Freedomsha

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Merci, libelul, je viens de le tester pour voir. Il n'était pas dans les dépôts.
premier étonnement, pas de zonage! il travaille sur l'image entière.
Tesseract a eu une bonne reconnaissance des colonnes et des sauts de ligne.(cuneiform n'a pas reconnu les saut de ligne)
L'enregistrement est vraiment intéressant, on a le choix entre ODF, html ou text.
Par contre, les images ne sont pas prises en compte pour le résultat final.(ce qui aurait été intéressant pour les mise en page ODF et html)
Le résultat final reste très brut.

libelul a écrit :

Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.

C'est vrai que les mots soulignés posent quelques problèmes.

Hors ligne

#509 Le 09/02/2014, à 16:40

libelul

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Freedomsha a écrit :

pas de zonage! il travaille sur l'image entière

Effectivement. Sur le site ils disent qu'il est préférable de faire un pré-traitement avec par exemple scantailor.
Je le conseille également, la reconnaissance est bien meilleure !

Hors ligne

#510 Le 08/03/2014, à 10:50

nknico

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour à tous,

Je me sert très souvent de l'interface OCR feeder pour faire de la reconnaissance de caratères avec le moteur tesseract.

Seulement depuis que je suis passé à 13.10, la version de ocrfeeder des dépôts est horriblement buggée, ça freeze quand je veux importer un pdf, ça freeze dès que je veux toucher une option de l'interface ou un paramètres du moteur.

J'arrive à m'en servir quand même en transformant mes pdf en jpg auparavant, mais c'est tout de même pénible.

Vous avez une idée de comment régĺer le problème ? J'ai essayé de passer pas gscan2pdf mais il ne trouve pas le moteur tesseract installé...

Merci d'avance !


Nico

Hors ligne

#511 Le 11/03/2014, à 12:41

nknico

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Personne n'est en mesure de m'aider ? C'est vraiment un problème important, ocrfeeder est un de mes outils de travail principaux.


Nico

Hors ligne

#512 Le 20/03/2014, à 18:09

nknico

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

up


Nico

Hors ligne

#513 Le 16/04/2014, à 18:55

Fgermin

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour

Je recherche un développeur avec une bonne  connaissance d'un OCR en opensource pour le développement d'une application.
Si intéressé, pouvez-vous me contacter : 0676282477;
mercu

Hors ligne

#514 Le 04/06/2014, à 17:43

Didier-T

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour a tous,
je viens de tester OCRFeeder, au début j'ai pensé que sa ne fonctionnait pas, mais en fait le soucis viens de la reconnaissance du français, le paquet qui vas bien n'étant pas installé.
il s'agit du paquet suivant

tesseract-ocr-fra

Maintenant la reconnaissance ce fait sans soucis.

En ligne

#515 Le 06/06/2014, à 01:03

alexiei13

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour à tous,
Je suis tout nouveau sur ce forum et c'est mon tout premier message!
Au mois de janvier dernier, j'ai fat une mauvaise manip avec un fichier open office hyper important et je me suis retrouvé avec plein de dièses partout au lieu de mes 100 et quelques pages de textes.
Avec la fac et mes examens de premier et second semestre, j'ai arrêté de m'arracher les cheveux et j'ai laissé tomber à trouver une solution mais maintenant que j'ai un peu plus de temps devant moi (je suis en vacances, enfin! ;-)  ), eh bien, je m'arrache de nouveau les cheveux avec les racines!! pour moi, c'est inenvisageable que j'ai perdu ce texte, ce n'est pas possible
Si quelqu'un pouvait m'aider, je lui en serai éternellement reconnaissant
C'est un fichier .odt
Je dois préciser que je n'y connais absolument rien en informatique, plus nul que moi vous mourrez donc je vais essayer de m'adapter au jargon informatique si quelqu'un m'aide...
Merci d'avance :-)

Hors ligne

#516 Le 06/06/2014, à 08:33

Robert Algoud

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Salut

alexiel13 : il faudrait mieux ouvrir un nouveau sujet pour ce problème et donner des précisions sur ce qui s'est passé pour en arriver là.

Concernant OCRFeeder, j'ai installé Tesseract mais je n'arrive pas à l'intégrer à OCRFeeder qui ne jure que par Cunéiforme.


Ubuntu depuis Hardy Héron - Ubuntu Gnome 14.04 - Gnome 3.12 - http://gardetonpc.handylinux.org/

Hors ligne

#517 Le 10/06/2014, à 10:19

Vista

Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Bonjour,

existe t'il un logiciel (graphique) qui permet de faire apprendre au logiciel comment scanné un type de facture pour qu'il reconnaise tous seul les différents champs de la facture (fournisseurn, montant et autre champ ....).
a partir d'un scan ?

et 'alimenter un fichier csv ?

merci à vous.


Mes blogs : Gsm-chinois -> http://gsm-chinois.blogspot.fr/ Frechdesign -> http://frechdesign.blogspot.fr/ Archos 101 gen8 -> http://archos101-gen8.blogspot.fr/

Hors ligne

Haut de page ↑