Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 31/03/2016, à 15:26

fralyon

[OCR] - Gestion des documents familliaux

Je souhaiterais mettre en place pour un usage famillial un système d'OCR qui puisse permettre de faciliter la gestion de la paprasse
l'idée serait donc :

Je scan mes fichiers (PNG / JPG / PDF) et les poses dans un dossier
Ensuite l'OCR prends le relais, il detect les nouveaux fichier et créé un PDF OCRisé
Enfin il sauve cela dans un dossier.

Comme cela je peux faire des recheches dans les fichier et classer mes papiers sans me faire C#¤^*$é

Pensez vous que cela soit possible ?

Hors ligne

#2 Le 31/03/2016, à 18:10

agensbur

Re : [OCR] - Gestion des documents familliaux

Paperwork semble correpsondre à ce que tu cherches
https://github.com/jflesch/paperwork#readme

Hors ligne

#3 Le 31/03/2016, à 19:07

LeoMajor

Re : [OCR] - Gestion des documents familliaux

bonsoir,
un truc du genre, en pur ocr ?

tesseract /tmp/test.jpg /tmp/test-ocr -l fra
pandoc test-ocr.txt -o test-ocr.pdf

utiliser incron si compatible, pour surveiller les évènements "Je scan mes fichiers (PNG / JPG / PDF) et les poses dans un dossier"

Hors ligne

#4 Le 01/04/2016, à 20:58

fralyon

Re : [OCR] - Gestion des documents familliaux

Je penses que la proposition du "tout OCR" serait la plus adaptée
paperwork est une solution séduisante, par contre, elle demande un PC connecté au serveur. Dans mon cas, le scanner se trouve dans un placard a côté de mon serveur (un vieux mac mini transformé en serveur).

Je vais donc explorer la proposition de LeoMajor, par contre si je suis assez dégourdi pour faire tourner mon serveur en assemblant des briques, je n'ai aucune expérience de script alors si vous avez des ressources je suis preneur.

dans tous les cas si j'ai bien compris :
1 - J'installe tesseract pour l'OCR
2 - J'installe pandoc pour la conversion de fichier
3 - J'installe incron pour batcher l'ensemble ...

Enfin j'apprends a faire un script ... Je sais pas pourquoi j'ai l'impression que mes prochaines vacances pluvieuses vont être studieuses .... smile

Hors ligne

#5 Le 03/04/2016, à 19:34

fralyon

Re : [OCR] - Gestion des documents familliaux

bon

j'ai un peu travailler et j'en suis  ici, le script permet d'OCRiser un pdf existant, je m'appuis sur :
  - ImageMagick pour transformer un pdf existant en image (pour améliorer le résultat de tesseract) et décomposer le pdf
  - tesseract pour l'OCR converti l'image en pdf
  - pdftk pour assembler les pdf unitaires afin de recomposer le fichier initial
  - pdfwrite pour réduire la taille du pdf

le résultat est plutôt bon par contre le code surement un peu cra cra si vous avez des suggestions pour l'améliorer le voici

#!/bin/bash
cd /media/cerisier/OCR/DocumentsATraiter
var=$(ls -a . | sed -e "/\.$/d" | wc -l)
while [ $var != 0 ]
do
	echo traitement fichier
	mkdir temp/
	cd /media/cerisier/OCR/DocumentsATraiter
	shopt -s extglob
	mv $(ls -tr1 | awk 'FNR==1') temp/
	cd /media/cerisier/OCR/DocumentsATraiter/temp/
	for i in  *.PDF ; do 
		nomcomplet=$(basename $i)
		nom=${nomcomplet%.*}
		convert -density 1200 -resize 25% "$i" -quality 100 "$nom".jpg ;
		done
	for i in *.jpg ; do
		nomcomplet=$(basename $i)
		nom=${nomcomplet%.*}
		tesseract -l fra "$i" "$nom".pdf pdf; 
		done
	nomcomplet=$(basename $i)
	nom=${nomcomplet%.*} 
	pdftk *.pdf cat output "$nom"-OC.pdf
	gs -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile="$nom"-OCR.pdf "$nom"-OC.pdf
	mv "$nom"-OC.pdf /media/cerisier/OCR/DocumentsTraite/ ;
	cd /media/cerisier/OCR/DocumentsATraiter
	rm -Rf /media/cerisier/OCR/DocumentsATraiter/temp
	echo document traité et deplacé dans dossier DocumentsTraité
	sleep 5
	var=$(ls -a . | sed -e "/\.$/d" | wc -l)
done
echo tous les documents ont été traités

Hors ligne

#6 Le 07/04/2016, à 11:53

fralyon

Re : [OCR] - Gestion des documents familliaux

Je poursuis la réflexions dans le sous forum "Terminal, scripts et ligne de commande"

1er fil - Renommer un fichier pdf en fonction de son contenu fil de discussion

Hors ligne