[OCR] - Gestion des documents familliaux

fralyon · Le 31/03/2016, à 15:26

Je souhaiterais mettre en place pour un usage famillial un système d'OCR qui puisse permettre de faciliter la gestion de la paprasse
l'idée serait donc :

Je scan mes fichiers (PNG / JPG / PDF) et les poses dans un dossier
Ensuite l'OCR prends le relais, il detect les nouveaux fichier et créé un PDF OCRisé
Enfin il sauve cela dans un dossier.

Comme cela je peux faire des recheches dans les fichier et classer mes papiers sans me faire C#¤^*$é

Pensez vous que cela soit possible ?

agensbur · Le 31/03/2016, à 18:10

Paperwork semble correpsondre à ce que tu cherches
https://github.com/jflesch/paperwork#readme

LeoMajor · Le 31/03/2016, à 19:07

bonsoir,
un truc du genre, en pur ocr ?

tesseract /tmp/test.jpg /tmp/test-ocr -l fra
pandoc test-ocr.txt -o test-ocr.pdf

utiliser incron si compatible, pour surveiller les évènements "Je scan mes fichiers (PNG / JPG / PDF) et les poses dans un dossier"

fralyon · Le 01/04/2016, à 20:58

Je penses que la proposition du "tout OCR" serait la plus adaptée
paperwork est une solution séduisante, par contre, elle demande un PC connecté au serveur. Dans mon cas, le scanner se trouve dans un placard a côté de mon serveur (un vieux mac mini transformé en serveur).

Je vais donc explorer la proposition de LeoMajor, par contre si je suis assez dégourdi pour faire tourner mon serveur en assemblant des briques, je n'ai aucune expérience de script alors si vous avez des ressources je suis preneur.

dans tous les cas si j'ai bien compris :
1 - J'installe tesseract pour l'OCR
2 - J'installe pandoc pour la conversion de fichier
3 - J'installe incron pour batcher l'ensemble ...

Enfin j'apprends a faire un script ... Je sais pas pourquoi j'ai l'impression que mes prochaines vacances pluvieuses vont être studieuses ....

fralyon · Le 03/04/2016, à 19:34

bon

j'ai un peu travailler et j'en suis ici, le script permet d'OCRiser un pdf existant, je m'appuis sur :
- ImageMagick pour transformer un pdf existant en image (pour améliorer le résultat de tesseract) et décomposer le pdf
- tesseract pour l'OCR converti l'image en pdf
- pdftk pour assembler les pdf unitaires afin de recomposer le fichier initial
- pdfwrite pour réduire la taille du pdf

le résultat est plutôt bon par contre le code surement un peu cra cra si vous avez des suggestions pour l'améliorer le voici

#!/bin/bash
cd /media/cerisier/OCR/DocumentsATraiter
var=$(ls -a . | sed -e "/\.$/d" | wc -l)
while [ $var != 0 ]
do
	echo traitement fichier
	mkdir temp/
	cd /media/cerisier/OCR/DocumentsATraiter
	shopt -s extglob
	mv $(ls -tr1 | awk 'FNR==1') temp/
	cd /media/cerisier/OCR/DocumentsATraiter/temp/
	for i in  *.PDF ; do 
		nomcomplet=$(basename $i)
		nom=${nomcomplet%.*}
		convert -density 1200 -resize 25% "$i" -quality 100 "$nom".jpg ;
		done
	for i in *.jpg ; do
		nomcomplet=$(basename $i)
		nom=${nomcomplet%.*}
		tesseract -l fra "$i" "$nom".pdf pdf; 
		done
	nomcomplet=$(basename $i)
	nom=${nomcomplet%.*} 
	pdftk *.pdf cat output "$nom"-OC.pdf
	gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile="$nom"-OCR.pdf "$nom"-OC.pdf
	mv "$nom"-OC.pdf /media/cerisier/OCR/DocumentsTraite/ ;
	cd /media/cerisier/OCR/DocumentsATraiter
	rm -Rf /media/cerisier/OCR/DocumentsATraiter/temp
	echo document traité et deplacé dans dossier DocumentsTraité
	sleep 5
	var=$(ls -a . | sed -e "/\.$/d" | wc -l)
done
echo tous les documents ont été traités

fralyon · Le 07/04/2016, à 11:53

Je poursuis la réflexions dans le sous forum "Terminal, scripts et ligne de commande"

1er fil - Renommer un fichier pdf en fonction de son contenu fil de discussion

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 31/03/2016, à 15:26

[OCR] - Gestion des documents familliaux

#2 Le 31/03/2016, à 18:10

Re : [OCR] - Gestion des documents familliaux

#3 Le 31/03/2016, à 19:07

Re : [OCR] - Gestion des documents familliaux

#4 Le 01/04/2016, à 20:58

Re : [OCR] - Gestion des documents familliaux

#5 Le 03/04/2016, à 19:34

Re : [OCR] - Gestion des documents familliaux

#6 Le 07/04/2016, à 11:53

Re : [OCR] - Gestion des documents familliaux

Pied de page des forums