#501 Le 04/05/2012, à 14:30
- cyberic
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Je trouve que LibreOffice livrée avec la 12.04 fonctionne vraiment très bien.:)
- Intel® NUC Kit NUC6i5SYK / Intel® Wireless-AC 8260 + BT 4.1 / Intel Wireless Display 6.0 - Iris Graphics 540 - Ubuntu 18.04.2 LTS
- Nexus 7 32Go (2013) Androïd 7
- Xiaomi MI A2 AndroïdOne
Hors ligne
#502 Le 06/12/2012, à 20:56
- Sorbus
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Salut les amis,
Je viens d'installer un nouvel ordi avec Ubuntu 12.04 LTS. J'ai installé tesseract 3.02 par synaptic, et xsane2tess en installant moi-même le script à la main comme indiqué dans la documentation Ubuntu francophone sur xsane2tess. J'ai suivi les autres consignes de cette doc pour l'utilisation de xsane2tess, puis j'ai testé l'ocr : tout fonctionne parfaitement. La doc sur xsane2tess est donc toujours à jour.
J'ai lu les messages depuis mon dernier passage par ici... Je découvre surtout la nouveauté de OCRFeeder... Peut-être testerai-je, même si je suis très satisfait de la solution tesseract + xsane2tess, à laquelle je suis habitué... L'intérêt de OCRFeeder est peut-être de sortir des fichiers odt...
P.S. : le message précédent a-t-il un rapport avec l'OCR ? Est-ce qu'il y aurait maintenant un système d'OCR intégré à LibreOffice ?
Dernière modification par Sorbus (Le 06/12/2012, à 20:57)
Hors ligne
#503 Le 02/03/2013, à 20:01
- ben.gun
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Bonjour,
après avoir essayé Gocr et Cuneiform je trouve également que cette combinaison (Xsane2 + tesseract) fonctionne le mieux. Je teste OCRfeeder mais il n'arrive pas à numériser jusqu'à présent... à voir.
Hors ligne
#504 Le 08/02/2014, à 12:58
- Freedomsha
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Sous Ubuntu 12.04.
Bon j'ai essayé OCRFeeder, obtenir un fichier odt à partir d'un pdf (le rêve!)
Donc j'ouvre OCRFeeder, Fichier/Importer un pdf. Après plusieurs minutes, plantage.
Après quelques lectures, il nécessite d'utiliser Gimp pour avoir des fichiers Tiff.
L'import du fichier pdf fait planter Gimp aussi. Il ne me permettra que de transformer 10 pages par 10 pages.
Soit 1 image .Tiff ≃20Mo /page, donc du Lourd.
J'importe ces 10 pages dans OCRFeeder, je ne sais plus si c'est l'import ou la reconnaissance qui a planté, en tout cas, il a fallu que je passe à 5 pages pour obtenir un résultat:
des fichiers odt de 5 pages.
positionnement des cases presque identique à la reconnaissance de caractère
avec les images au bon endroit
petit hic:
la mise en page sera à refaire presque totalement
trop de cases dans le fichier odt.
la police avait changé à cause de mes modifications.
Conclusion: J'avais encore pas mal de boulot pour obtenir un odt correct. J'étais limité par la place prise par les images Tiff sachant que le livre fait 230 pages!
j'essais gImageReader, bof, rien de plus, résultat en txt, aucun intérêt! Des plantages!
J'essais YAGF puisqu'ils en parlent sur Ubuntu.
Vu que je m'étais fait la main avec OCRFeeder, la prise en main est facile, graphiquement, il est beau.
Là, 10 pages Tiff fonctionnent mais le résultat est en txt.
Bon quitte à refaire la mise en page utiliser un txt sera plus simple que de transformer un odt.
Après avoir reconnu les 90 tiff qui me restaient. J'essais l'import de pdf, il a besoin d'un dossier vide, mais je dois importer seulement 5 pages pour éviter qu'il plante.
Heureusement, j'obtiens des fichiers légers png, il bug un peu après l'import, où il m'affiche plusieurs fois les mêmes pages. Je préfère le redémarrer.
Le résultat à partir de fichiers png semble aussi bon qu'avec les tiff.
Conclusion: Pour gagner en nombre de manipulation, je vais continuer avec YAGF, tant pis pour l'odt.
Bien faire attention que la première prise en compte pour l'ordre des cases est de gauche à droite puis du haut vers le bas. Donc veiller à ce que votre 1ère case soit la plus à gauche, les suivantes de plus en plus à droite.
OCRFeeder est à suivre car le seul à pouvoir obtenir des fichiers pour office directement.(!!!la suite de la discution me contredira puisqu'il existe OCRector !!!)
Tout s'est fait avec Tesseract.
Dernière modification par Freedomsha (Le 09/02/2014, à 12:25)
Hors ligne
#505 Le 08/02/2014, à 16:34
- Ner0lph
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Pour info, Tesseract ne sait pas reproduire la mise en forme : il ne sort que du texte ou une sorte de HTML dans lequel des balises span indique la position du caractère ou du mot reconnu dans l'image originale.
Ceci explique donc cela.
Dernière modification par Ner0lph (Le 08/02/2014, à 16:35)
Hors ligne
#506 Le 08/02/2014, à 21:54
- Freedomsha
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
En tout cas des 4 (Tesseract, OCRad, GOCR et Cuneiform) avec OCRFeeder, Tesseract reste le seul à reconnaître les bons sauts de ligne.
OCRFeeder a du mal à reconnaître les colonnes. YAGF les reconnaît mais ne les met pas forcement dans l'ordre approprié.
Tesseract dans YAGF ne fait pas les sauts de ligne!
Honnêtement, pour un résultat de qualité de moins de 10 pages, je conseille OCRFeeder, mais pour énormément de page je passerais à YAGF qui utilise des fichiers beaucoup plus légers.
Dernière modification par Freedomsha (Le 08/02/2014, à 22:09)
Hors ligne
#507 Le 09/02/2014, à 08:56
- libelul
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
J'utilise ocrector qui ne fait pas le scan, il faut lui fournir les images mais par contre il fusionne les pages OCRisées du projet en odt.
Le choix du moteur OCR est comme d'habitude cuneiform ou tesseract.
Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.
Dernière modification par libelul (Le 19/02/2014, à 06:11)
Hors ligne
#508 Le 09/02/2014, à 12:21
- Freedomsha
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Merci, libelul, je viens de le tester pour voir. Il n'était pas dans les dépôts.
premier étonnement, pas de zonage! il travaille sur l'image entière.
Tesseract a eu une bonne reconnaissance des colonnes et des sauts de ligne.(cuneiform n'a pas reconnu les saut de ligne)
L'enregistrement est vraiment intéressant, on a le choix entre ODF, html ou text.
Par contre, les images ne sont pas prises en compte pour le résultat final.(ce qui aurait été intéressant pour les mise en page ODF et html)
Le résultat final reste très brut.
Je crois que cuneiform et tesseract reconnaissent le gras et l'italique mais pas plus.
C'est vrai que les mots soulignés posent quelques problèmes.
Hors ligne
#509 Le 09/02/2014, à 15:40
- libelul
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
pas de zonage! il travaille sur l'image entière
Effectivement. Sur le site ils disent qu'il est préférable de faire un pré-traitement avec par exemple scantailor.
Je le conseille également, la reconnaissance est bien meilleure !
Hors ligne
#510 Le 08/03/2014, à 09:50
- nknico
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Bonjour à tous,
Je me sert très souvent de l'interface OCR feeder pour faire de la reconnaissance de caratères avec le moteur tesseract.
Seulement depuis que je suis passé à 13.10, la version de ocrfeeder des dépôts est horriblement buggée, ça freeze quand je veux importer un pdf, ça freeze dès que je veux toucher une option de l'interface ou un paramètres du moteur.
J'arrive à m'en servir quand même en transformant mes pdf en jpg auparavant, mais c'est tout de même pénible.
Vous avez une idée de comment régĺer le problème ? J'ai essayé de passer pas gscan2pdf mais il ne trouve pas le moteur tesseract installé...
Merci d'avance !
Nico
Hors ligne
#511 Le 11/03/2014, à 11:41
- nknico
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Personne n'est en mesure de m'aider ? C'est vraiment un problème important, ocrfeeder est un de mes outils de travail principaux.
Nico
Hors ligne
#512 Le 20/03/2014, à 17:09
- nknico
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
up
Nico
Hors ligne
#513 Le 16/04/2014, à 17:55
- Fgermin
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Bonjour
Je recherche un développeur avec une bonne connaissance d'un OCR en opensource pour le développement d'une application.
Si intéressé, pouvez-vous me contacter : 0676282477;
mercu
Hors ligne
#514 Le 04/06/2014, à 16:43
- Didier-T
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Bonjour a tous,
je viens de tester OCRFeeder, au début j'ai pensé que sa ne fonctionnait pas, mais en fait le soucis viens de la reconnaissance du français, le paquet qui vas bien n'étant pas installé.
il s'agit du paquet suivant
tesseract-ocr-fra
Maintenant la reconnaissance ce fait sans soucis.
Hors ligne
#515 Le 06/06/2014, à 00:03
- alexiei13
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Bonjour à tous,
Je suis tout nouveau sur ce forum et c'est mon tout premier message!
Au mois de janvier dernier, j'ai fat une mauvaise manip avec un fichier open office hyper important et je me suis retrouvé avec plein de dièses partout au lieu de mes 100 et quelques pages de textes.
Avec la fac et mes examens de premier et second semestre, j'ai arrêté de m'arracher les cheveux et j'ai laissé tomber à trouver une solution mais maintenant que j'ai un peu plus de temps devant moi (je suis en vacances, enfin! ;-) ), eh bien, je m'arrache de nouveau les cheveux avec les racines!! pour moi, c'est inenvisageable que j'ai perdu ce texte, ce n'est pas possible
Si quelqu'un pouvait m'aider, je lui en serai éternellement reconnaissant
C'est un fichier .odt
Je dois préciser que je n'y connais absolument rien en informatique, plus nul que moi vous mourrez donc je vais essayer de m'adapter au jargon informatique si quelqu'un m'aide...
Merci d'avance :-)
Hors ligne
#516 Le 06/06/2014, à 07:33
- Robert Algoud
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Salut
alexiel13 : il faudrait mieux ouvrir un nouveau sujet pour ce problème et donner des précisions sur ce qui s'est passé pour en arriver là.
Concernant OCRFeeder, j'ai installé Tesseract mais je n'arrive pas à l'intégrer à OCRFeeder qui ne jure que par Cunéiforme.
Ubuntu depuis Hardy Héron (08.04) - Xubuntu 22.04 LTS
Hors ligne
#517 Le 10/06/2014, à 09:19
- Vista
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Bonjour,
existe t'il un logiciel (graphique) qui permet de faire apprendre au logiciel comment scanné un type de facture pour qu'il reconnaise tous seul les différents champs de la facture (fournisseurn, montant et autre champ ....).
a partir d'un scan ?
et 'alimenter un fichier csv ?
merci à vous.
Hors ligne
#518 Le 24/06/2017, à 23:05
- gotgot
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Bon le sujet de OCR est des plus complexe mais une chose est sur.
C'est le bordel dans le fil de documentation !
Je pense qu'il y a trop de choix et pas assez de précision note etc...
On reste sur la même problématique que tant que le petit +1 n'est pas intégré dans les posts de forum on perd beaucoup de temps a trié l'information pertinente du questionnement sans fond.
Quelqu'un a connaissance de l'architecture de la base : libgocr ??
Est-elle utiliser par plusieurs logiciels OCR différents ?
Tout seul on vas plus vite, ensemble on vas plus loin.
Notre vision d'avenir est forte, Nos rèves aussi soyons vraie !
Hors ligne
#519 Le 25/06/2017, à 04:38
- moko138
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
On reste sur la même problématique que tant que le petit +1 n'est pas intégré dans les posts de forum
Je n'ai rien compris. Peux-tu préciser ton idée s'il te plaît ?
===========
Quelqu'un a connaissance de l'architecture de la base : libgocr ??
As-tu consulté
apt-cache show libgocr*
?
- -
Est-elle utiliser par plusieurs logiciels OCR différents ?
Tu procèdes dans l'autre sens :
Dans un premier temps, pour dégrossir :
apt-cache show chaque_logiciel_OCR_qui_t'intéresse | grep libgocr
Quand le retour est non vide, c'est que libgocr est mentionné (probablement dans les dépendances, mais pas nécessairement).
Ensuite, parmi les commandes ayant fourni un retour non vide, tu accèdes aux précisions par
apt-cache show chaque_logiciel_OCR_trouvé_précédemment
%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel : À la découverte de dcraw
Hors ligne
#521 Le 12/09/2017, à 21:52
- mohican
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
OCRFeeder, après installation ne se lance pas sous Linux Mint 18 (pas testé sous Ubuntu 16.04).
Solution : installer l'éditeur de menu alacarte
Éditer le raccourci de OCRFeeder : remplacer la commande "ocrfeeder -i %f" par "ocrfeeder"
mohican, plus tout à fait débutant sur Ubuntu
Ub 22.04 // Mint 21 Xfce // Mint 21 Cinnamon // Win7 SP1
Hors ligne
#522 Le 07/04/2021, à 18:07
- garykidall
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Hello,
je viens de créer un diagramme dans Open Office Writer, mais malheureusement il s'efface et on lit juste Objet 1, il faut cliquer du droit et éditer, mais dès que je re-clique en dehors il s'efface à nouveau ....
est-ce que quelqu'un pourrait me dire la manipulation à effectuer parce que là c'est l'angoisse .... il faut que je boucle mon mémoire ...
merci d'avance
Hors ligne
#523 Le 08/04/2021, à 12:43
- garykidall
Re : Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...
Hello,
je viens de créer un diagramme dans Open Office Writer, mais malheureusement il s'efface et on lit juste Objet 1, il faut cliquer du droit et éditer, mais dès que je re-clique en dehors il s'efface à nouveau ....
est-ce que quelqu'un pourrait me dire la manipulation à effectuer parce que là c'est l'angoisse .... il faut que je boucle mon mémoire ...
merci d'avance
c'est marrant on voit le graphique appaitre quand on passe en mode aperçu ...????
Hors ligne