#1 Le 31/03/2016, à 15:26
- fralyon
[OCR] - Gestion des documents familliaux
Je souhaiterais mettre en place pour un usage famillial un système d'OCR qui puisse permettre de faciliter la gestion de la paprasse
l'idée serait donc :
Je scan mes fichiers (PNG / JPG / PDF) et les poses dans un dossier
Ensuite l'OCR prends le relais, il detect les nouveaux fichier et créé un PDF OCRisé
Enfin il sauve cela dans un dossier.
Comme cela je peux faire des recheches dans les fichier et classer mes papiers sans me faire C#¤^*$é
Pensez vous que cela soit possible ?
Hors ligne
#2 Le 31/03/2016, à 18:10
- agensbur
Re : [OCR] - Gestion des documents familliaux
Paperwork semble correpsondre à ce que tu cherches
https://github.com/jflesch/paperwork#readme
Hors ligne
#3 Le 31/03/2016, à 19:07
- LeoMajor
Re : [OCR] - Gestion des documents familliaux
bonsoir,
un truc du genre, en pur ocr ?
tesseract /tmp/test.jpg /tmp/test-ocr -l fra
pandoc test-ocr.txt -o test-ocr.pdf
utiliser incron si compatible, pour surveiller les évènements "Je scan mes fichiers (PNG / JPG / PDF) et les poses dans un dossier"
Hors ligne
#4 Le 01/04/2016, à 20:58
- fralyon
Re : [OCR] - Gestion des documents familliaux
Je penses que la proposition du "tout OCR" serait la plus adaptée
paperwork est une solution séduisante, par contre, elle demande un PC connecté au serveur. Dans mon cas, le scanner se trouve dans un placard a côté de mon serveur (un vieux mac mini transformé en serveur).
Je vais donc explorer la proposition de LeoMajor, par contre si je suis assez dégourdi pour faire tourner mon serveur en assemblant des briques, je n'ai aucune expérience de script alors si vous avez des ressources je suis preneur.
dans tous les cas si j'ai bien compris :
1 - J'installe tesseract pour l'OCR
2 - J'installe pandoc pour la conversion de fichier
3 - J'installe incron pour batcher l'ensemble ...
Enfin j'apprends a faire un script ... Je sais pas pourquoi j'ai l'impression que mes prochaines vacances pluvieuses vont être studieuses ....
Hors ligne
#5 Le 03/04/2016, à 19:34
- fralyon
Re : [OCR] - Gestion des documents familliaux
bon
j'ai un peu travailler et j'en suis ici, le script permet d'OCRiser un pdf existant, je m'appuis sur :
- ImageMagick pour transformer un pdf existant en image (pour améliorer le résultat de tesseract) et décomposer le pdf
- tesseract pour l'OCR converti l'image en pdf
- pdftk pour assembler les pdf unitaires afin de recomposer le fichier initial
- pdfwrite pour réduire la taille du pdf
le résultat est plutôt bon par contre le code surement un peu cra cra si vous avez des suggestions pour l'améliorer le voici
#!/bin/bash
cd /media/cerisier/OCR/DocumentsATraiter
var=$(ls -a . | sed -e "/\.$/d" | wc -l)
while [ $var != 0 ]
do
echo traitement fichier
mkdir temp/
cd /media/cerisier/OCR/DocumentsATraiter
shopt -s extglob
mv $(ls -tr1 | awk 'FNR==1') temp/
cd /media/cerisier/OCR/DocumentsATraiter/temp/
for i in *.PDF ; do
nomcomplet=$(basename $i)
nom=${nomcomplet%.*}
convert -density 1200 -resize 25% "$i" -quality 100 "$nom".jpg ;
done
for i in *.jpg ; do
nomcomplet=$(basename $i)
nom=${nomcomplet%.*}
tesseract -l fra "$i" "$nom".pdf pdf;
done
nomcomplet=$(basename $i)
nom=${nomcomplet%.*}
pdftk *.pdf cat output "$nom"-OC.pdf
gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile="$nom"-OCR.pdf "$nom"-OC.pdf
mv "$nom"-OC.pdf /media/cerisier/OCR/DocumentsTraite/ ;
cd /media/cerisier/OCR/DocumentsATraiter
rm -Rf /media/cerisier/OCR/DocumentsATraiter/temp
echo document traité et deplacé dans dossier DocumentsTraité
sleep 5
var=$(ls -a . | sed -e "/\.$/d" | wc -l)
done
echo tous les documents ont été traités
Hors ligne
#6 Le 07/04/2016, à 11:53
- fralyon
Re : [OCR] - Gestion des documents familliaux
Je poursuis la réflexions dans le sous forum "Terminal, scripts et ligne de commande"
1er fil - Renommer un fichier pdf en fonction de son contenu fil de discussion
Hors ligne