Kooka : super !

xpiopio · Le 20/11/2007, à 16:09

Bonjour bonjour,

suite à ma lecture du dossier "Reconnaissance optique de caractères" http://doc.ubuntu-fr.org/ocr et comme je viens de refaire entièrement ma machine avec une ubuntu 7.10, je me suis lancé dans l'aventure OCR sous linux.

Mes précédentes tentatives s'étaient soldées par des échecs et là : nickel ! Vraiment ça fonctionne bien et c'est très simple pour un novice comme moi dans le paramétrage.

J'ai juste un truc "rigolo" mais un tout petit peu perturbant : les S sont des 5 et inversement...

Quelqu'un aurait-il une idée sur : comment résoudre ce problème !

pierluc · Le 20/11/2007, à 16:34

Une affaire de rien, tu fait rechercher/remplacer dans un logiciel de traitement de texte et tu remplace 5 par S. Le ic c'est que les vrais chiffres 5 seront rempacé par des S alors il te faudra relire le texte pour corriger ça a la main. Mais, il ne doit pas y avoir tan que ça de chiffre 5 dans ton texte. Puis, si tu as des zones avec pleins de chiffre et bien sélectionne les blocs de texte avant de faire rechercher/remplacer comme ça il vas affecter juste le texte et pas les zones pleines de chiffres.

xpiopio · Le 20/11/2007, à 16:43

merci Pierluc, en effet, perdu dans la volonté de faire en sorte que kooka reconnaisse de façon pérenne ces deux caractères, j'avais zappé cette fonction basique dans un TT...

JBF · Le 20/11/2007, à 17:00

xpiopio a écrit :

merci Pierluc, en effet, perdu dans la volonté de faire en sorte que kooka reconnaisse de façon pérenne ces deux caractères, j'avais zappé cette fonction basique dans un TT...

Plutà´t faire en 3 étapes :
- 1 remplacer les s par une séquence qui n'existe pas, un truc du genre $sâ‚¬ ;
- 2 remplacer les 5 par des s ;
- 3 remplacer les $sâ‚¬ par des 5.

JBF

Sorbus · Le 30/11/2007, à 00:35

Bonsoir les amis,
@xpiopio
Merci pour ce retour. Dans le texte que j'utilise pour tester les différents logiciels, je vois que je n'ai pas mis de 5 et de S... Il va donc falloir que je le complète un peu.
Pour le reste, il me semble que Kooka/ocrad était la meilleure solution de ROC sous Linux jusqu'à la sortie de Tesseract 2.01 il y a quelques semaines. Depuis on a des résultats encore meilleurs avec Tesseract; plus précisément, avec Xsane (pour scanner le document au format .tiff) + Tesseract pour la reconnaissance optique de caractères. Mais Kooka/ocrad garde l'avantage pour les textes avec une mise en page (colonnes).
Voir ici :
http://forum.ubuntu-fr.org/viewtopic.ph … 5#p1292765

Et si vous voulez, on peut prolonger la discussion et partager les retours d'expérience sur ce fil dédié à la ROC/OCR sous Ubuntu :
http://forum.ubuntu-fr.org/viewtopic.php?id=78804&p=1

@+

Dernière modification par Sorbus (Le 30/11/2007, à 00:36)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 20/11/2007, à 16:09

Kooka : super !

#2 Le 20/11/2007, à 16:34

Re : Kooka : super !

#3 Le 20/11/2007, à 16:43

Re : Kooka : super !

#4 Le 20/11/2007, à 17:00

Re : Kooka : super !

#5 Le 30/11/2007, à 00:35

Re : Kooka : super !

Pied de page des forums