ROC (Reconnaissance Optique de caractère.) avec scan2pdf problème

Sorbus · Le 27/02/2010, à 01:24

Merci supertouffe,
Pour le petit texte marginal, Omnipage 16 reconnait quelques mots, alors qu'Omnipage 9 et Tesseract n'en reconnaissent rien.

Concernant le texte principal, je compte 64 erreurs pour Tesseract contre 30 pour Omnipage 16, donc un peu moins du double.

Analyse plus fine, les erreurs portent sur :
- les mots français (y compris techniques), non séqués dans l'image d'origine,
- les mots français séqués,
- les noms latins,
- les signes de ponctuation
- les espaces
- les chiffres
- les noms d'auteurs,
- les ponctuations omises,
- les signes ajoutés.

Pour la première catégorie (mots français non séqués), l'avantage d'Omnipage 16 est net : 2 erreurs seulement contre 41 pour Tesseract.

Mais pour l'ensemble des autres erreurs, c'est équilibré (28 erreurs Omnipage contre 23 Tesseract).

Conclusion : il manque un bon dictionnaire de français à Tesseract pour le traitement "post-ocr", mais la reconnaissance "brute" en elle-même est similaire.

De fait, le dictionnaire de français dans le fichier langue "tessdata", sensé servir à tesseract pour améliorer la ROC est vide...

C'est donc un point qui devrait pouvoir être amélioré...

Appréciable chez Omnipage 16 : les sauts à la ligne du fichier image sont supprimés, pour obtenir un texte "en continu".

Dernière modification par Sorbus (Le 27/02/2010, à 01:26)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#26 Le 27/02/2010, à 01:24

Re : ROC (Reconnaissance Optique de caractère.) avec scan2pdf problème

Pied de page des forums