Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 15/11/2014, à 14:14

L'Africain

cuneiform/xsane enregistre en iso-5589-14

Bonjour,
Je savais vraiment pas où poster ce problème j’espère que là ça ira!
Alors voilà alors que je fais de la ROC depuis des lustres avec xsane et cuneifrom comme paramètres (cuneiform -l fra), voilà que tout à coup il s'est mis à ne pas m'afficher les accents dans le fichier txt de sortie. Les accents sont systématiquement remplacés par des caractères bizarres, pour exemple si j'ouvre avec Gedit:

À mes chers fils John Vaughn, ministre général de l'Ordre des FrÚres mineurs; Vital Bommarco, ministre général de l'Ordre des FrÚres mineurs conventuels; Flavio Carraro, ministre général de l'Ordre des FrÚres mineurs capucins; Roland Faley, ministre général du Tiers Ordre régulier de saint François, en ce VIII' centenaire de la naissance de saint François d'Assise.

Si j'ouvre avec libreoffice c'est un peu moins pire, mais pas top non plus:

Déjà, le 3 octobre 1981, nous avions inaugu  l'année consacrée à sa mémoire en nous adressant au cours d'une célébration... avec vous — et, par votre intermédiaire, avec le plus grand nombre possible —

Si j'ouvre avec Mousepad, il me dit que l'encodage est de l'iso-5589-14. En gros xsane encode pas dans le bon format.
J'ai cherché du côté des variables d'environnement tout est ok!!!
J'ai modifié:

/etc/environnement
/etc/bash.bashrc
/etc/profile

J'y ai ajouté les variable LANG, et tout les trucs pour que tout le système utilise l'utf8, mais rien n'y fait.
Sous xubuntu 14.04 aucun problème, mais j'ai essayé avec un live-usb pour voir si c'est pas moi qui avait abîmé quelque chose dans la racine, non, j'ai le même problème en live-usb sur deux machines différentes.
Merci de votre aide!


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#2 Le 16/11/2014, à 14:42

gl38

Re : cuneiform/xsane enregistre en iso-5589-14

xsane n'encode pas : il fait une image qu'il envoie au logiciel d'OCR, qui lui est responsable de l'encodage.
Si tu sauves l'image et que dans un terminal tu fais passer dessus cuneiform -l fra, que donne la commande file sur le fichier texte obtenu ?
Cordialement,
Guy

Hors ligne

#3 Le 16/11/2014, à 21:07

L'Africain

Re : cuneiform/xsane enregistre en iso-5589-14

Bonjour,
Merci beaucoup pour ton aide voici la réponse de file:

cuneiform -l fra -o test.txt test.JPG
file --mime-encoding test.txt
unknown-8bit

Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#4 Le 17/11/2014, à 10:11

gl38

Re : cuneiform/xsane enregistre en iso-5589-14

C'est bizarre. Je viens d'essayer avec le DVD de Cubuntu 14.04, cuneiform 1.1.0 me donne un fichier uft8.
D'où vient ton cuneiform ?
Cordialement,
Guy

Hors ligne

#5 Le 17/11/2014, à 18:47

L'Africain

Re : cuneiform/xsane enregistre en iso-5589-14

Il vient des dépôts. Ce qui est bizarres c'est que c'est venu soudainement. Je croyais que c'était du à une erreur de manipulation parce que justement j'ai travaillé sur des fichiers html que j'ai converti en utf8. J'ai donc réinstallé, mais le problème subsiste. J'ai alors testé avec un live-cd d'Ubuntu sur un autre ordi, ça fait la même chose !! C'est quand même incroyable... Ça peut avoir un lien avec des dictionnaires installés?
Une info supplémentaire, j'ai ouvert hier un message Thunderbird enregistré sur le disque, et j'ai eu encore cette affichage bizarre. Mais pas si je l'ouvrais avec gedit pour le coup.
Merci pour ton aide.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#6 Le 18/11/2014, à 08:47

gl38

Re : cuneiform/xsane enregistre en iso-5589-14

Je ne comprends pas comment avec un live-CD cela peut arriver !
Où as-tu pris le live-CD ?
Après avoir démarré avec le live-CD, as-tu installé cuneiform avec la commande

apt-get install cuneiform

Comment as-tu obtenu l'image ?
Cordialement,
Guy

Hors ligne

#7 Le 18/11/2014, à 09:42

L'Africain

Re : cuneiform/xsane enregistre en iso-5589-14

Je crois que j'ai utilisé un iso remasterisé, simple Maj et installation des logiciels. Je vais retester avec un iso normal. Merci.
PS j'ai fait la roc avec tesseract en ligne de commande et yagf ça fonctionne bien. Il semble que ça soit vraiment cuneiform qui casse l'encodage??

Edit: Je confirme, avec usb de boot iso ubuntu 14.04.1 normal (amd64), cuneiform me donne les caractères bizarres!!! C'est à rien n'y comprendre.

Dernière modification par L'Africain (Le 18/11/2014, à 10:08)


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#8 Le 18/11/2014, à 17:58

gl38

Re : cuneiform/xsane enregistre en iso-5589-14

j'ai téléchargé le CD d'ubuntu 14.04 sur ce site.
Avec unity (avec Cubuntu, on en est dispensé), j'ai installé le dépôt multiverse, qu'il ne connaît pas par défaut, puis cuneiform et ça marche normalement en utf8.
Je ne comprends vraiment pas ce qui se passe chez toi.
Cordialement,
Guy

Hors ligne

#9 Le 18/11/2014, à 22:59

L'Africain

Re : cuneiform/xsane enregistre en iso-5589-14

J'utilise un miroir des dépôts pour installer les logiciels serait-ce possible que mon paquet soit corrompu ?
Pourquoi soudainement ça a fait çà ? Et pourquoi pas sous xubuntu ? On dirait pas qu'un tel bug ai été recensé. Je vais encore essayer en téléchargeant direct du net.
Merci pour l'aide.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#10 Le 19/11/2014, à 15:52

gl38

Re : cuneiform/xsane enregistre en iso-5589-14

Avec ce dvd, cuneiform marche aussi en utf8.
Cordialement,
Guy

Hors ligne

#11 Le 21/11/2014, à 10:44

L'Africain

Re : cuneiform/xsane enregistre en iso-5589-14

Bonjour,
Alors voilà j'ai téléchargé le paquet directement sur le net (http://packages.ubuntu.com/vivid/amd64/ … m/download), la version actuelle et celle de vivid qui est plus récente. Résultat cuneiform en ligne de commande fonctionne, mais pas pas dans xsane j'ai toujours le même problème, la sortie n'est pas en uft8. J'ai eu même une erreur un peu différente : file: could not find any valid magic files!
Par contre (!!!!) tout à coup dans yagf ça a marché??
Et aussi lors de l'ouverture de paquet avec gdebi j'ai cette erreur qui s'installe en rouge : Erreur : n'est plus fourni cuneiform, pour info j'ai aussi téléchargé cuneiform-common et libcuneiform0.
Voilà... Pas de xsane pour la reconnaissance optique, un fonctionnement aléatoire de cuneiform, tout ça est bien mystérieux.


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#12 Le 21/11/2014, à 14:57

gl38

Re : cuneiform/xsane enregistre en iso-5589-14

Je pense que cela ne sert à rien de changer le paquet de cuneiform : toutes les versions que j'ai testées marche correctement, enfin du point de vue utf8, pour la reconnaissance des caractères je trouve que tesseract marche mieux.
Je crois que c'est la manière dont tu installes ou testes le système qui ne va pas.
Cordialement,
Guy

Hors ligne

#13 Le 21/11/2014, à 17:25

L'Africain

Re : cuneiform/xsane enregistre en iso-5589-14

Je crois que c'est la manière dont tu installes ou testes le système qui ne va pas.

Tu peux être plus précis? Je peux simplement dire que soudainement xsane et cunéiform ne sont plus copains... Tu as raison pour les paquets, mais il fallait bien que j’essaye. Et j'ai quand même un résultat positif pour la ligne de commande et yagf.

je trouve que tesseract marche mieux.

Ce n'est pas mon expérience. Tu utilises gscan2pdf? Tesseract ne recompose pas les mots de fin de ligne, il ne décompose pas le texte des colonnes en un beau bloc de texte comme cunéiform. Pour les erreurs liées à l'orthographe, je crois qu'ils se valent plus ou moins.
Merci en tout cas !


Ubuntu-Unity 18.04 LDLC (clevo) X/Lubuntu-Mate
"Donne à celui qui te demande…" Mt 5,42

Hors ligne

#14 Le 21/11/2014, à 17:42

gl38

Re : cuneiform/xsane enregistre en iso-5589-14

Je n'ai pas compris comment les CD d'installation officiels pouvaient ne pas fonctionner chez toi.

Je n'utilise pas gscan2pdf, je préfère la ligne de commande, encore que j'aime bien yagf.
Je scanne avec xpdf, j'enregistre l'image, puis je fais passer tesseract dessus.
Effectivement, tesseract ne traite pas les mots coupés, ni les colonnes. Pour les colonnes yagf permet de traiter les colonnes l'une après l'autre. Pour les fautes, en général j'obtiens de meilleurs résultats avec tesseract.

Il semble que cuneiform soit arrêté, il y a un site russe mais je n'ai trouvé que des trucs pour windows.
Cordialement,
Guy

Hors ligne