Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 23/05/2008, à 17:27

rifi58

[résolu] modifier avec OOo une page numérisée

bonjour !

je cherche depuis un petit bout de temps ...

je souhaiterais modifier un texte (avec writer) d'une page numérisée... et je ne vois pas comment faire ...

merci de vos lumières

Dernière modification par rifi58 (Le 21/06/2008, à 17:29)


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne

#2 Le 23/05/2008, à 17:36

Hermes le Messager

Re : [résolu] modifier avec OOo une page numérisée

rifi58 a écrit :

bonjour !

je cherche depuis un petit bout de temps ...

je souhaiterais modifier un texte (avec writer) d'une page numérisée... et je ne vois pas comment faire ...

merci de vos lumières

Il faut installer tesseract et gscan2pdf.

Ensuite, avec gscan2pdf, tu peux faire de la ROC (reconnaissance de caractères...)

Hors ligne

#3 Le 23/05/2008, à 18:13

rifi58

Re : [résolu] modifier avec OOo une page numérisée

ok merci

j'ai installé ce qui est dans la doc (il fallait rechercher "ROC", ça ne m'était pas venu comme ça...)

par contre gscan2pdf me numérise bien ma page mais la reconnaissance de caractère est illisible... j'ai bien vu qu'on pouvait utiliser l'outil unpaper ... mais comment ? en le laissant configuré par défaut ?

ça m'a l'air d'être "usine à gaz", non ??

Dernière modification par rifi58 (Le 23/05/2008, à 18:33)


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne

#4 Le 16/06/2008, à 07:28

PatriceGendreau

Re : [résolu] modifier avec OOo une page numérisée

Une solution installer KOOKA
ça paut marcher, il sait faire la reconnaissance de caractère sur une page déjà numérisée


Bon pas tout jeune...
sous informatique en perfusion depuis 1981...
tout essayé... et me voici sous Ubuntu et content
http://patrice.gendreau.free.fr/

Hors ligne

#5 Le 19/06/2008, à 09:32

rifi58

Re : [résolu] modifier avec OOo une page numérisée

merci mais ça ne marche pas non plus ;
j'ai pourtant essayé avec une page texte uniquement...
le résultat est inexploitable...

la ROC c'est totalement merdique apparemment...

Dernière modification par rifi58 (Le 19/06/2008, à 09:32)


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne

#6 Le 19/06/2008, à 09:35

Hermes le Messager

Re : [résolu] modifier avec OOo une page numérisée

rifi58 a écrit :

merci mais ça ne marche pas non plus ;
j'ai pourtant essayé avec une page texte uniquement...
le résultat est inexploitable...

la ROC c'est totalement merdique apparemment...

Tu as scanné la page en 300dpi ?

ça m'étonnerait, car cela marche parfaitement normalement (avec parfois quelques erreurs, cela dépend de la lisibilité du document et de la police utilisée dans le document).

On peut voir le document en question ? roll

Hors ligne

#7 Le 19/06/2008, à 09:36

Hermes le Messager

Re : [résolu] modifier avec OOo une page numérisée

Je parle évidemment de gscan2pdf.

Chez moi, il marche remarquablement. Seul les tableaux ou autre trucs graphiques ne sont pas encore rendus (et ça va venir).

Hors ligne

#8 Le 19/06/2008, à 10:06

rifi58

Re : [résolu] modifier avec OOo une page numérisée

avec gscan2pdf, capture d'écran:

[img]d0d2f0c921c2979c4aae108287a9d.png[/img]

Dernière modification par rifi58 (Le 19/06/2008, à 10:31)


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne

#9 Le 19/06/2008, à 16:18

Hermes le Messager

Re : [résolu] modifier avec OOo une page numérisée

rifi58 a écrit :

avec gscan2pdf, capture d'écran:

C'est pas ce que je t'ai demandé. Il faut l'image en 300 DPI et non en 72 comme en ce moment. Donc, c'est pas une capture qu'il faut, mais l'image scannée en 300 dpi.

Ensuite, si tu scannes bien l'image en 300 dpi et que tu obtiens quand même ce résultat (ce dont je doute), tu vas dans synaptic, tu vérifies que tu as bien tesseract-ocr en version 2.01 d'installé et tu regardes également si tesseract-ocr-fra est bien installé (c'est pour le français). tu peux aussi installer les autres langues si tu le souhaites.
Quand tu utilises gscan2pdf, tu dois regarder si la bonne langue est bien sélectionnée.

Voilà.

Si malgré tout cela ça ne marche pas mieux, tu scannes ton truc en 300 dpi et tu nous mets ton image (en 300 dpi) à notre disposition pour voir si ça fait pareil chez d'autres.

Mais que tu saches que chez moi pour ce type de document, j'arrive à des résultats qui approchent le 99.99%. hmm

Hors ligne

#10 Le 19/06/2008, à 16:49

rifi58

Re : [résolu] modifier avec OOo une page numérisée

je t'assure que je scanne la page en 300DPI ;

tesseract 2.01.3 et tesseract-ocr-fra sont bien installés et que la langue à reconnaître lors de la ROC est bien le français...

voici la page scannée (je ne sais pas si c'est ça que tu veux et si tu pourras exploiter l'image comme tu veux...) :
http://pix.nofrag.com/f/0/5/4614dd09894 … 5fdb6.html

Dernière modification par rifi58 (Le 19/06/2008, à 16:57)


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne

#11 Le 21/06/2008, à 00:40

Sorbus

Re : [résolu] modifier avec OOo une page numérisée

@rifi58

Deux questions et une réponse...

Question 1 : comment as-tu installé tesseract ?
--> comme ceci ?
ou bien
--> comme cela ?

Question 2 :
Quelle version de gscan2pdf as-tu installée ?
0.9.21 (celle des dépôts Hardy) ?
0.9.23 (une des plus récente)

Et une réponse :

utiliser l'outil unpaper ... mais comment ?

L'outil unpaper, selon les versions de gscan2pdf, est intitulé "unpaper" ou "clean up"
Tu le trouves dans "outil".
Oui, tu le laisses configuré par défaut.
Puisque, entre autres choses, unpaper peut redresser un texte un peu "penché", tu peux juste indiquer sur quel(s) bord(s) aligner la rotation de l'image (le ou les bords où le texte est le plus rectiligne. On évite par exemple le bord droit si le texte n'est pas aligné à droite).
Et après avoir fait "outil --> Clean up" (ou "Outil-->unpaper"), tu relances la ROC.

N.B. 1 : le texte que tu as scanné est de qualité. La ROC devrait très bien se faire dessus avec tesseract (espagnol wink ) C'est donc un problème lié au mode d'installation (je pense).

N.B. 2 : Kooka ne permet pas d'utiliser le moteur de ROC tesseract, mais seulement GOCR et OCRAD. Or, pour un texte comme celui-ci, tesseract doit donner un bien meilleur résultat.

N.B. 3 : Une alternative intéressante à gscan2pdf, si tu scannes toi-même ton document (et non si tu veux travailler sur un document déjà numérisé) est XSane+xsane2tess+tesseract

Hors ligne

#12 Le 21/06/2008, à 01:01

Sorbus

Re : [résolu] modifier avec OOo une page numérisée

Je complète : juste par curiosité, après avoir agrandi ta capture d'écran (celle du message 8 de ce fil), j'en ai fait une capture d'écran avec mon ordi. J'ai ouvert le fichier obtenu avec Gimp, découpé les contours de ton texte, augmenté la résolution à 300 ppi (en conservant la taille de l'image... ce qui crée des pixels artificiellement, et donc avec un effet de flou)... augmenté le contraste en diminuant la luminosité pour retrouver une image plus nette.

Puis j'ai importé le fichier obtenu dans gscan2pdf, fait "Outil--> Clean up"... puis "Outil--> ROC" (avec tesseract espagnol).

Voici le résultat :

`1
Paroles Mala F ama Manu (,hzw
Artistez Mamešlhap
ChanSOn: Mala Fama
fama mata fama 1a que me va persxguuence
fama maia fama zamuro en Ia gran Ciudad
fama mala fama Ïa que me va maždiciendc;
fama mala fama dume tu porque sera
ya Say un hombre Săncerõ
de donde crece Ia ]Uana
b0ca de vieja Contando de todo IO que no Sabe
fama maia fama ·a que me va Orececuenco
fama mala fama zamura en Ia gran Ciudad
como buitre por lô gran Cxudac
arrastrateia
me: Oucen en dcsagradcctdo
esa nO es Ia verdad
me cncen de ÍOOO me dicen de nada
nunca por delante Siempre por aetras
fama maia fama Ia que me va maldācienda
fama mala fama zamuro en Ia gran ciudad
fama maia fama Ia que me va preceauendo
rama maia fama por angu >•Jra
fama mala fama
pero SaOCO yo Sigo pa'|ante
Sc que YT1aCšõl!£‘Çôi"ô
boca de vieja inventando

Ce n'est évidemment pas parfait... Mais vu tout mon trafic pour recréer une image lisible à partir d'une capture d'écran de capture d'écran tongue ce n'est pas si mal.

Donc, avec le document numérisé original, tu devrais obtenir un résultat presque parfait.

Si besoin, désinstalles tesseract si tu l'as installé à partir des dépôts Hardy, et refais l'expérience après avoir réinstallé tesseract par le paquet deb de "b52"...

@+

Dernière modification par Sorbus (Le 21/06/2008, à 01:12)

Hors ligne

#13 Le 21/06/2008, à 08:03

rifi58

Re : [résolu] modifier avec OOo une page numérisée

merci !

réponse aux questions 1 et 2 : j'avais tout installé par synaptic (le plus simple et ce que je sais faire...)

j'ai ajouté les deb dans mon sources.list pour gscan2pdf et fait les màj, ok !

j'ai désinstallé tesseract et téléchargé la b52 qui est sur mon bureau mais je ne sais pas qu'en faire (comment l'installer) ???

Dernière modification par rifi58 (Le 21/06/2008, à 08:04)


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne

#14 Le 21/06/2008, à 08:30

Sorbus

Re : [résolu] modifier avec OOo une page numérisée

j'ai désinstallé tesseract et téléchargé la b52 qui est sur mon bureau mais je ne sais pas qu'en faire (comment l'installer) ???

Après avoir fermé Synaptic, tu double-cliques sur le fichier deb de b52 que tu as téléchargé. Si tu es sous Ubuntu (ou Debian), ça doit s'installer tout seul.

Dernière modification par Sorbus (Le 21/06/2008, à 08:37)

Hors ligne

#15 Le 21/06/2008, à 08:55

rifi58

Re : [résolu] modifier avec OOo une page numérisée

ben oui quel imbécile (moi !) je faisais clic droit/extraire ici...

OK merci !

c'est bon, du moins c'est exploitable.

enfin quand il y a un document avec images et tableaux (lignes te colonnes), là par contre c'est pas bon du tout...

Dernière modification par rifi58 (Le 21/06/2008, à 09:08)


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne

#16 Le 21/06/2008, à 10:49

Hermes le Messager

Re : [résolu] modifier avec OOo une page numérisée

rifi58 a écrit :

ben oui quel imbécile (moi !) je faisais clic droit/extraire ici...

OK merci !

c'est bon, du moins c'est exploitable.

enfin quand il y a un document avec images et tableaux (lignes te colonnes), là par contre c'est pas bon du tout...

Oui, les tableaux et tout ça, c'est en train d'être travaillé. Cela va venir, mais plus tard. wink

Sinon, ton scan est quand même aussi de très mauvaise qualité (le document original peut-être ?). En particulier, il y a plein de stries blanches dans les caractères.

Avec un document "propre" et bien scanné, les résultats approcheront les 100%.

Hors ligne

#17 Le 21/06/2008, à 17:17

Sorbus

Re : [résolu] modifier avec OOo une page numérisée


"c'est bon, du moins c'est exploitable."

Oui, j'avais été un peu optimiste sur la qualité du document; je n'avais pas regardé le lien que tu as donné dans le message 10 de ce fil. Hermes le messager a raison. Le document d'origine semble être mal imprimé... ce que la numérisation ne peut améliorer. Ces stries horizontales compliquent la ROC (ce qui explique notamment les nombreux "l" transformés en "i"). Par ailleurs, le fond n'est pas parfaitement blanc. Une amélioration du contraste via Gimp améliore les choses, mais ne peut résoudre la difficulté des lettres coupées horizontalement par les stries.

J'ai converti le fichier html que tunous as transmis, amélioré le contraste... puis traité via gscan2pdf (unpaper et ROC)... Voici ce que ça donne :

Paroles Mala Fama Manu Chao
ArtiSte: Manu Chao
Chanson: Mala Fama
·fama maia fama ia que me va persiguiendo
fama maia fama zamuro en Ia gran ciudad
fama maia fama ia que me va maidiciendo
fama maia fafna dime tu porque Sera
yo Soy un nombre Sāncero
de donde Crece Ia juana »
boca de vieja contando de todo lo que no Sabe
fama maia fama ia que me va precediendo
fama mala fama zamuro en Ia gran ciudad
como buitre por ia gran ciudad
arrastratela
me dicen ei desagradecido
esa no es la verdad
me dicen de todo me dicen de nada
nunca por deiante Siempre por detras
fama maia fama ia que me va maidřciendo
fama maia fama zamuro en la gran ciudad
fama maia fama Ia que me va precediendo
fama maia fama por algo Sera
-5-—.~—-x .-xxi-. $­—»———-x
ICIIIICI IIIGICI IGIHG
pero Saoco yo Sigo pa‘iante
Se que mi dia iiegara
boca de vieja inventando
io que ee ira comentando
todo lo va fabuiando
no Sabe ma' que decir
me dicen el de Ia mala vida
perro verde mai educado
me dicen de todo me dicen de nada
nunca por deiante Siempre por detras
fama maia fama la que me va maidiciendo
fama mala fama dime tu porque Sera
fãmõ maia fama Se que mi dia iiegara
(y de vecina en vecina
llego hasta alla a la china i
v de vuelta a ia cocina

J'espérais un peu mieux.
Mais comme dit Hermes, avec des documents de bonne qualité, tu obtiendras beaucoup mieux.

Et oui, pour les tableaux et les documents à mise en page complexe (colonnes, images), il faut attendre encore un peu. On devrait commencer à pouvoir tester Ocropus (associé à tesseract) d'ici quelques mois.

Mais, au moins, tu disposes maintenant d'une installation de tesseract fonctionnelle.

Dernière modification par Sorbus (Le 21/06/2008, à 17:20)

Hors ligne

#18 Le 21/06/2008, à 17:28

rifi58

Re : [résolu] modifier avec OOo une page numérisée

merci à tous !


Membre de l'April - « promouvoir et défendre le logiciel libre » - http://www.april.org

Hors ligne