Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 07/04/2015, à 12:44

heronheronpetitpatapon

wget info

Bonjour, Voila je fais de la recherche en diplomatie et j'ai besoins de beaucoup de docs.
Je voudrais utilisé wget pour télécharger des pdf d'un site.
j'ai vu sur la doc quil,suffisait de rentre cette ligne :
wget [nom du site] -A –> Permet de ne télécharger que le type de fichier choisi. donc je met par exemple :

marco@marco-K43SJ:~$ wget www.diploweb -A .pdf
--2015-04-07 12:43:20--  http://www.diploweb/
Résolution de www.diploweb (www.diploweb)... échec: Nom ou service inconnu.
wget : impossible de résoudre l'adresse de l'hôte «www.diploweb»
marco@marco-K43SJ:~$ wget www.diploweb.com -A .pdf
--2015-04-07 12:43:30--  http://www.diploweb.com/
Résolution de www.diploweb.com (www.diploweb.com)... 195.144.11.40
Connexion vers www.diploweb.com (www.diploweb.com)|195.144.11.40|:80... connecté.
requête HTTP transmise, en attente de la réponse... 200 OK
Taille : non spécifié [text/html]
Enregistre : «index.html»

    [ <=>                                   ] 32 892      --.-K/s   ds 0,03s   

2015-04-07 12:43:32 (919 KB/s) - «index.html» enregistré [32892]

marco@marco-K43SJ:~$ 

Mais ca ne marche pas!En faite c'est pour m’éviter d'avoir a ouvrir toutes les pages du site, je prend tout et après je fais mon tri!

Merci


...Ubuntu Rocks....

Hors ligne

#2 Le 07/04/2015, à 13:02

Compte anonymisé

Re : wget info

Déjà, le chemin complet (http://) doit être mentioné:

wget http://www.diploweb/mon_document

Mais je crains que tu tombes sur un os, les liens pdf de ton site étant accessible via php : pas le cas le plus simple:

exemple: http://www.diploweb.com/spip.php?page=s … ticle_1351

#3 Le 07/04/2015, à 13:23

Compte anonymisé

Re : wget info

Salut,

Essaye ceci :

wget --recursive --level=2 --no-directories --no-host-directories --accept pdf http://www.diploweb.com

Le --level=2 spécifie le niveau d'exploration (nombre de sous pages). Comme ça suit tous les liens de chaque page, ça peut prendre du temps (surtout si > 2).