Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 09/08/2017, à 15:53

Papy Octet

Gscan2pdf - Tesseract pas d’affichage OCR

Bonjour,

Je suis sous Debian 8.5.
J'utilise depuis longtemps gscan2pdf (gscan2pdf 1.2.6) et tesseract installé pour scanner et convertir des documents scannés en texte.
Une fois l'image du texte scanné téléchargé, je vais dans le menu "Édition > Sélectionner > Tout" puis je lance ROC. C'est depuis ce moment-là que je n'ai plus le résultat de la reconnaissance affiché dans le cadre contenu dans l'onglet "OCR output".

Aujourd'hui, je lance Gscan2pdf avec la console, je vois ce message :

~$ gscan2pdf
Possible precedence issue with control flow operator at /usr/share/perl5/Gscan2pdf/Dialog/Scan.pm line 1178.

Mais je n'ai pas besoin de mon scanner puisque les images ont déjà été scannées à 300 dpi.

Dans la fenêtre du logiciel, je charge une image.
Jusque là, aucun problème.

Dans le menu "Outils", je clique sur "ROC". Là, un large trait bleu apparaît très très rapidement. Cela me surprend car habituellement, la barre de défilement bleue reste chaque fois plusieurs secondes avant d'arriver à la fin de l'écran.
Quand je vais dans l'onglet ROC ... il y a un cadre avec RIEN dedans !
J'ai envisagé un texte écrit en blanc mais il n'y a rien à sélectionner dans ce cadre.

J'ai aussi un message d'alerte qui apparaît avec :

The following list of sessions cannot be restored. Please retrieve any images you require from them. Selected sessions will be deleted.

Mais je ne trouve pas la cession en question dont le message m'affiche le nom.
Et même quand je clique sur le bouton "Supprimer", cette cession problématique n'est pas effacée.

J'essaie un démarrage de l'application en mode "verbeux" et voici ce qui est affiché dans la console :

gscan2pdf --log=Test Gscan_20170808.log
Possible precedence issue with control flow operator at /usr/share/perl5/Gscan2pdf/Dialog/Scan.pm line 1178. 
INFO - Starting gscan2pdf 1.2.6
INFO - Log level DEBUG
INFO - Using fr_BE.UTF-8 locale
INFO - Startup LC_NUMERIC C
INFO - Reading config from /home/guy/.gscan2pdf
INFO - Perl version v5.20.2
INFO - Glib-Perl version 1.305
INFO - Built for Glib 2.40.0
INFO - Running with Glib 2.42.1
INFO - Gtk2-Perl version 1.2492
INFO - Built for GTK 2.24.25
INFO - Running with GTK 2.24.25
INFO - Gscan2pdf::Document version 1.2.6
INFO - Using GtkImageView version 1.6.4
INFO - Using Gtk2::ImageView version 0.05
INFO - Using PDF::API2 version 2.023
INFO - Using Sane version 1.0.24
INFO - Using libsane-perl version 0.05
DEBUG - $VAR1 = {
      'unsharp threshold' => '0.05',
      'cycle sane handle' => '',
      'pdf font' => '/usr/share/fonts/truetype/Aerosol.ttf',
      'keywords' => '',
      'Page range' => 'selected',
      'OCR output' => 'replace',
      'view files toggle' => '1',
      'visible-scan-options' => {
                                'page-width' => '1',
                                'pagewidth' => '1',
                                'compression' => '1',
                                'speed' => '1',
                                'pageheight' => '1',
                                'wait-for-button' => '1',
                                'l' => '1',
                                'y' => '1',
                                'page-height' => '1',
                                'overscan-bottom' => '1',
                                'batch-scan' => '1',
                                'source' => '1',
                                'button-wait' => '1',
                                'brightness' => '1',
                                'x' => '1',
                                'gain' => '1',
                                'resolution' => '1',
                                'threshold' => '1',
                                'adf_mode' => '1',
                                'Paper size' => '1',
                                'overscan-top' => '1',
                                't' => '1',
                                'contrast' => '1',
                                'calibration-cache' => '1',
                                'adf-mode' => '1',
                                'mode' => '1'
                              },
      'unpaper on scan' => '1',
      'default filename' => '%a %y-%m-%d',
      'unsharp radius' => '0',
      'Blank threshold' => '0.005',
      'unsharp sigma' => '1',
      'user_defined_tools' => 'gimp %i',
      'default' => {
                   'epkowa:interpreter:005:009' => [
                                                   {
                                                     'br-x' => '210'
                                                   },
                                                   {
                                                     'br-y' => '297'
                                                   },
                                                   {
                                                     'cct-1' => '1'
                                                   }
                                                 ],
                   'epkowa:interpreter:008:005' => [
                                                   {
                                                     'br-x' => '210'
                                                   },
                                                   {
                                                     'br-y' => '297'
                                                   }
                                                 ],
                   'epkowa:interpreter:008:003' => [
                                                   {
                                                     'br-x' => '210'
                                                   },
                                                   {
                                                     'br-y' => '297'
                                                   }
                                                 ],
                   'epkowa:interpreter:005:008' => [
                                                   {
                                                     'br-x' => '210'
                                                   },
                                                   {
                                                     'br-y' => '297'
                                                   }
                                                 ]
                 },
      'unsharp amount' => '1',
      'window_height' => '1014',
      'subject' => 'Apprentissage logiciel',
      'rotate facing' => '0',
      'title' => 'Tutos Knipling_3_0',
      'thumb panel' => '100',
      'unpaper options' => {
                           'output-pages' => '1',
                           'border-margin' => '0,0',
                           'no-border-scan' => '',
                           'layout' => 'single',
                           'no-blurfilter' => '',
                           'no-deskew' => '',
                           'no-border-align' => '',
                           'no-noisefilter' => '',
                           'deskew-scan-direction' => 'left,right',
                           'no-mask-scan' => '',
                           'white-threshold' => '0.9',
                           'black-threshold' => '0.33',
                           'no-grayfilter' => '',
                           'no-blackfilter' => ''
                         },
      'scan-reload-triggers' => 'mode',
      'selection' => [
                     '1224',
                     '106',
                     '0',
                     '627'
                   ],
      'rotate reverse' => '0',
      'downsample dpi' => '150',
      'ocr language' => 'fra',
      'libsane-perl version' => '0.05',
      'auto-open-scan-dialog' => '1',
      'pdf compression' => 'auto',
      'SANE version' => '1.0.24',
      'tiff compression' => 'none',
      'author' => "H\x{e9}l\x{e9}na Fransens",
      'device' => 'epkowa:interpreter:001:006',
      'profile' => {},
      'Dark threshold' => '0.12',
      'threshold tool' => '80',
      'startup warning' => '1',
      'layout' => 'single',
      'window_maximize' => '1',
      'device blacklist' => '',
      'scan prefix' => '',
      'window_y' => '27',
      'window_x' => '0',
      'image type' => 'txt',
      'date offset' => '0',
      'cache options' => '1',
      'Paper' => {
                 'A4' => {
                         'l' => '0',
                         't' => '0',
                         'x' => '210',
                         'y' => '297'
                       },
                 'Lettre US' => {
                                'y' => '279',
                                't' => '0',
                                'x' => '216',
                                'l' => '0'
                              },
                 "L\x{e9}gal US" => {
                                'y' => '356',
                                'l' => '0',
                                'x' => '216',
                                't' => '0'
                              }
               },
      'TMPDIR' => '/home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens',
      'frontend' => 'libsane-perl',
      'resolution' => '300',
      'downsample' => '',
      'version' => '1.2.6',
      'pages to scan' => '1',
      'ocr engine' => 'tesseract',
      'cwd' => '/home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens',
      'quality' => '75',
      'restore window' => '1',
      'OCR on scan' => '1',
      'window_width' => '1920'
    };

INFO - Found tesseract version 3.03.
INFO - Found Image::Magick
INFO - Found ImageMagick
INFO - Found scanadf
INFO - Found xdg-email
INFO - Found tesseract
INFO - Found cjb2 (djvu)
INFO - Found libtiff
INFO - Found unpaper v0.4.2
INFO - Checking /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens for crashed sessions
INFO - Using /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens/gscan2pdf-irS3 for temporary files
DEBUG - Set logger in Gscan2pdf::Dialog::Scan::Sane
DEBUG - Set logger in Gscan2pdf::Dialog::Scan
INFO - Found tesseract language equ
INFO - Found tesseract language eng
INFO - Found tesseract language osd
INFO - Found tesseract language fra
INFO - Sane->get_devices returned: $VAR1 = [];

INFO - signal 'process-error' emitted with data: get_devices Aucun priphrique trouv
DEBUG - Started setting device_list from undef to $VAR1 = [];

INFO - signal 'changed-device-list' emitted with data: $VAR1 = [];

DEBUG - Started setting device from  to undef
INFO - signal 'changed-device' emitted with data: undef
DEBUG - Finished setting device from  to undef
DEBUG - Finished setting device_list from undef to $VAR1 = [
      {}
    ];

J'ai suivi le lien donné et j'ai supprimé le fichier temporaire "gscan2pdf-irS3" :

/home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens for crashed sessions

Mais ça ne fonctionne toujours pas.

Que faire ?

Merci.

Modification : comment Gscan2pdf traite les images.

J'ai des images jpg et jpeg.
Dans la fenêtre de sélection de Gscan2pdf, il n'y a aucune image jpeg affichée. J'ai renommé les images en jpg et hier, ça fonctionnait. Depuis l'utilisation de "Sélectionner > Tout", j'ai ce problème.

La console me renvoie ceci quand je charge une image jpg :

INFO - Getting info for /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens/007.jpeg
INFO - JPEG image data, JFIF standard 1.01, resolution (DPI), density 300x300, segment length 16, baseline, precision 8, 1976x1280, frames 3
.
INFO - Format Joint Photographic Experts Group JFIF format
INFO - New page filename /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens/007.jpeg, format Joint Photographic Experts Group JFIF format
INFO - Added /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens/gscan2pdf-Y9cA/uTCWaTeq22.jpg at page 1 with resolution 300
DEBUG - Started setting page_number_start from 1 to 2
DEBUG - Finished setting page_number_start from 1 to 2
INFO - Found tesseract version 3.03.
INFO - echo tessedit_create_hocr 1 > hocr.config;tesseract /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens/gscan2pdf-Y9cA/uTCWaTeq22.jpg /tmp/oOfKZIaiJk -l fra +hocr.config;rm hocr.config
DEBUG - Warnings from Tesseract: Tesseract Open Source OCR Engine v3.03 with Leptonica
read_params_file: Can't open Knipling
read_params_file: Can't open 3-0_Helena
read_params_file: Can't open Fransens/gscan2pdf-Y9cA/uTCWaTeq22.jpg
read_params_file: Can't open /tmp/oOfKZIaiJk
read_params_file: Can't open l
read_params_file: Can't open fra
Error in pixReadStream: Unknown format: no pix returned
Error in pixRead: pix not read
Error in pixGetInputFormat: pix not defined
Reading /home/guy/Documents/Mes as a list of filenames...
Error in findFileFormatStream: truncated file
Error in pixReadStream: Unknown format: no pix returned
Error in pixRead: pix not read
Image file 2714 Dentelles/Livre Knipling 3-0_Helena Fransens/gscan2pdf-Y9cA/J8Dlz_tBNZ.pid cannot be read!
Error during processing.
.
INFO - Replaced /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens/gscan2pdf-Y9cA/uTCWaTeq22.jpg at page 1 with /home/guy/Documents/Mes Dentelles/Livre Knipling 3-0_Helena Fransens/gscan2pdf-Y9cA/1o7N38ZGKS.jpg, resolution 300
INFO - Wrote config to /home/guy/.gscan2pdf
INFO - Killing Sane thread(s)
INFO - Killing document thread(s)
DEBUG - Quitting

Modification 2 : test avec xsane.

Je teste la reconnaissance de caractères directement dans xsane. Après avoir créé le fichier Bash "xsane2tess" selon les informations contenues ici.
Je scanne l'image dans Xsane, sélectionne la sortie "Texte" puis "OCR enregistrer comme texte" et là, rien ne se passe. Je n'ai aucun fichier .txt créé dans mon dossier.

Merci.


AMD A6-3500 HD6530D 2.1 ghz Triple core FM1 3mb - CM GIGABYTE GA-A75M-UD2H - 8 GiO ram DDR3 - HDD 1TO WD GREEN + WD Gaviar Black 1TO + externe IOMEGA 500GiO - Carte écran nvidia GeForce 210 Silent avec 1GiO cache DDR3 - Ubuntu
Portable HP - Intel Centrino - 1 Go DDR2 - DD 120 Go - Mint 14
Imprim. Samsung ML-1670 et CLP-315, scanner Epson Perfection V30, ... Linuxgraphic.org, LibreOffice.org

Hors ligne

#2 Le 09/08/2017, à 16:51

gl38

Re : Gscan2pdf - Tesseract pas d’affichage OCR

Dans le dernier retour de commande il y a des "Can't open" : le programme ne trouve pas les images, il semble qu'il soit faché avec les espaces dans les noms en particulier "Livre Knipling 3-0_Helena Fransens".
Tu devrais essayer en modifiant le titre du livre.
Tu pourrais aussi essayer d'utiliser tesseract directement.
Cordialement,
Guy

Hors ligne

#3 Le 09/08/2017, à 18:18

Papy Octet

Re : Gscan2pdf - Tesseract pas d’affichage OCR

Bonsoir gl38,

Ce que je ne comprends pas c'est qu'avant-hier il fonctionnait correctement puis, en fin de journée, sans que j'aie modifié quoi que ce soit sur ma bécane (pas de mise-à-jour ni d'installation quelconque) ça coince, comme ça, subitement et sans raison apparente.

Y aurait-il un "profil utilisateur" quelque part qui me plombe l'engin ?
Si possible, où se trouve-t-il ?

A+


AMD A6-3500 HD6530D 2.1 ghz Triple core FM1 3mb - CM GIGABYTE GA-A75M-UD2H - 8 GiO ram DDR3 - HDD 1TO WD GREEN + WD Gaviar Black 1TO + externe IOMEGA 500GiO - Carte écran nvidia GeForce 210 Silent avec 1GiO cache DDR3 - Ubuntu
Portable HP - Intel Centrino - 1 Go DDR2 - DD 120 Go - Mint 14
Imprim. Samsung ML-1670 et CLP-315, scanner Epson Perfection V30, ... Linuxgraphic.org, LibreOffice.org

Hors ligne

#4 Le 10/08/2017, à 08:34

gl38

Re : Gscan2pdf - Tesseract pas d’affichage OCR

Il y a aussi le nom du dossier "Mes Dentelels" qui a un espacequi crée un problème.
Quand on lance gsxan2pdf il y a un fichier .gscan2pdf (avec un point donc caché) qui se crée.
Cordialement,
Guy

Hors ligne