Extraire emails de *.pdf ? [Resolu]

Feral · Le 27/03/2016, à 14:53

Bonjour,
Je désirerais extraire les emails contenu dans une grosse centaine de *.pdf classés par sous-répertoires.

Pour les textes la commande suivante fonctionne très bien en récursif:
grep -hrio "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b" * | sort | uniq > email.txt

Donc je pensais pouvoir utiliser un peu la même chose avec pdfgrep puisque grep ne supporte pas les "pdf":
pdfgrep -hri "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b" *.pdf | sort | uniq > pdfemail.txt

Mais cela me donne un fichier vide. :-(

Auriez-vous une méthode qui fonctionne pour moi SVP?
Merci!

Dernière modification par Feral (Le 29/03/2016, à 23:43)

credenhill · Le 27/03/2016, à 16:15

hello
essayer

find . -name "*.pdf" -exec cat {} \; | strings | grep -io "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b" * | sort | uniq > email.txt

Feral · Le 28/03/2016, à 06:26

Merci mais cela ne fonctione pas. :-(
Ils scan tous les fichiers txt du répertoire et compile les emails.

Si je le fais tourner dans un rep avec test.pdf seulement, il me donne:

find: `cat' terminated by signal 13

Dernière modification par Feral (Le 28/03/2016, à 06:28)

serged · Le 28/03/2016, à 08:50

Plutôt que cat utilise less.

Ainsi :

less toto.pdf

t'affiche le fichier toto.pdf de manière plus ou moins formatée. Avec un | derrière, il se comportera comme un filtre.
Essaye :

find . -name "*.pdf" -exec less {} \; | strings | grep -io "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b" * | sort | uniq > email.txt

(pas vérifié le reste du code)

credenhill · Le 28/03/2016, à 09:25

remplacer cat par less ...
si les fichiers n'ont pas d'espace dans les noms, essayer

$ strings $(find . -type f -name "*.pdf") | grep -io "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b"

LeoMajor · Le 28/03/2016, à 10:12

bonjour,
il y a pdftotext

credenhill · Le 28/03/2016, à 11:08

mieux que strings, effectivement

edit; donc, essayer

find . -type f -name "*.pdf" -exec pdftotext {} - 2>/dev/null \; | grep -io "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b"

Dernière modification par credenhill (Le 28/03/2016, à 16:43)

Feral · Le 29/03/2016, à 23:43

Wahoo...
Merci à tous ça marche bien on dirait, en récurssif et avec des noms avec espace.

find . -type f -name "*.pdf" -exec pdftotext {} - 2>/dev/null \; | grep -io "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b" | uniq | sort > pdfemail.txt

Parfait! Super!!!
Merci!

Feral · Le 29/03/2016, à 23:54

Bon ça "uniq" pas et ça "sort" pas mais avec grep derrier ça passe tout seul.

grep -hrio "\b[a-z0-9.-]\+@[a-z0-9.-]\+\.[a-z]\{2,4\}\+\b" * | sort | uniq > email.txt

Merci à tous les 3!

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 27/03/2016, à 14:53

Extraire emails de *.pdf ? [Resolu]

#2 Le 27/03/2016, à 16:15

Re : Extraire emails de *.pdf ? [Resolu]

#3 Le 28/03/2016, à 06:26

Re : Extraire emails de *.pdf ? [Resolu]

#4 Le 28/03/2016, à 08:50

Re : Extraire emails de *.pdf ? [Resolu]

#5 Le 28/03/2016, à 09:25

Re : Extraire emails de *.pdf ? [Resolu]

#6 Le 28/03/2016, à 10:12

Re : Extraire emails de *.pdf ? [Resolu]

#7 Le 28/03/2016, à 11:08

Re : Extraire emails de *.pdf ? [Resolu]

#8 Le 29/03/2016, à 23:43

Re : Extraire emails de *.pdf ? [Resolu]

#9 Le 29/03/2016, à 23:54

Re : Extraire emails de *.pdf ? [Resolu]

Pied de page des forums