Pages : 1
#1 Le 07/04/2015, à 12:44
- heronheronpetitpatapon
wget info
Bonjour, Voila je fais de la recherche en diplomatie et j'ai besoins de beaucoup de docs.
Je voudrais utilisé wget pour télécharger des pdf d'un site.
j'ai vu sur la doc quil,suffisait de rentre cette ligne :
wget [nom du site] -A –> Permet de ne télécharger que le type de fichier choisi. donc je met par exemple :
marco@marco-K43SJ:~$ wget www.diploweb -A .pdf
--2015-04-07 12:43:20-- http://www.diploweb/
Résolution de www.diploweb (www.diploweb)... échec: Nom ou service inconnu.
wget : impossible de résoudre l'adresse de l'hôte «www.diploweb»
marco@marco-K43SJ:~$ wget www.diploweb.com -A .pdf
--2015-04-07 12:43:30-- http://www.diploweb.com/
Résolution de www.diploweb.com (www.diploweb.com)... 195.144.11.40
Connexion vers www.diploweb.com (www.diploweb.com)|195.144.11.40|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Taille : non spécifié [text/html]
Enregistre : «index.html»
[ <=> ] 32 892 --.-K/s ds 0,03s
2015-04-07 12:43:32 (919 KB/s) - «index.html» enregistré [32892]
marco@marco-K43SJ:~$
Mais ca ne marche pas!En faite c'est pour m’éviter d'avoir a ouvrir toutes les pages du site, je prend tout et après je fais mon tri!
Merci
...Ubuntu Rocks....
Hors ligne
#2 Le 07/04/2015, à 13:02
- Compte anonymisé
Re : wget info
Déjà, le chemin complet (http://) doit être mentioné:
wget http://www.diploweb/mon_document
Mais je crains que tu tombes sur un os, les liens pdf de ton site étant accessible via php : pas le cas le plus simple:
exemple: http://www.diploweb.com/spip.php?page=s … ticle_1351
#3 Le 07/04/2015, à 13:23
- Compte anonymisé
Re : wget info
Salut,
Essaye ceci :
wget --recursive --level=2 --no-directories --no-host-directories --accept pdf http://www.diploweb.com
Le --level=2 spécifie le niveau d'exploration (nombre de sous pages). Comme ça suit tous les liens de chaque page, ça peut prendre du temps (surtout si > 2).
Pages : 1