#1 Le 19/12/2005, à 20:43
- roicominutsoup
[info] Aspirer un site avec wget
wget est un utilitaire très pratique puisqu'il permet de télécharger des fichiers à partir de la ligne de commande.
Il permet également d'aspirer des sites.
Pour aspirer une page est ses liens sans sortir du domaine et sans remonter dans les répertoires parents :
wget -r -k -np AdresseDeLaPage
l'option -r signifie que le téléchargement sera récursif (il télécharge aussi les liens de la page)
le -k permet de reconstituer le site localement (les liens sont modifié pour pointer localement)
le -np empêche de remonter dans le répertoire parent.
faire un
man wget
pour des options plus avancées.
Hors ligne
#2 Le 20/12/2005, à 00:31
- bourrinlepoulpe
Re : [info] Aspirer un site avec wget
ha cool très pratique ma foi !
j' avais la flemme de repasser par gftp pour DL tout mon site pour en faire une sauvegarde
Hors ligne
#3 Le 20/12/2005, à 08:54
- roicominutsoup
Re : [info] Aspirer un site avec wget
Attention bourrinlepoulpe, wget télécharge du point de vue utilisateur, si tu as des éléments dynamiques sur ton site (php,cgi...), ceux-ci deviendront des pages statiques. Le résultat final n'est donc pas le même qu'un donwload par ftp.
Hors ligne
#4 Le 20/12/2005, à 09:16
- benjou
Re : [info] Aspirer un site avec wget
pour ceux qui n'aiment pas la ligne de commande:
'webhttrack'
écrasons l'infâme
Hors ligne
#5 Le 15/01/2006, à 19:28
- bourrinlepoulpe
Re : [info] Aspirer un site avec wget
oh point de problme j'ai que du html c'est un site tout pourri ^^
Hors ligne
#6 Le 26/06/2007, à 05:32
- selene10308
Re : [info] Aspirer un site avec wget
.En effet, ça fonctionne.
Mais au lieu d'avoir seulement les tutos que je voulais, j'ai eu tout le site - heureusement que ça ne fait que 10 MB.
Un hic tout de même : quand je veux voyager sur le site ainsi reconstitué en local, je reçois le message
"Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."
.
Dernière modification par selene10308 (Le 26/06/2007, à 05:47)
Tendre Voyou cher à mon coeur
Hors ligne
#7 Le 26/06/2007, à 15:09
- cheuveulu
Re : [info] Aspirer un site avec wget
Bonne astuce.
Très pratique pour avoir des documentations off-ligne
Serveurs Call Of Duty 2 El!teMoD et Call of duty 4 : http://team-elite.fr
Hors ligne
#8 Le 26/06/2007, à 15:18
- Compte anonymisé
Re : [info] Aspirer un site avec wget
Il y a une interface GTK pour wget :
sudo apt-get install gwget
#9 Le 26/06/2007, à 17:41
- Orni
Re : [info] Aspirer un site avec wget
A savoir pour la récursivité, on peut choisir la profondeur max ou on va ( ça peut être utile sur des gros sites)
ENSEArena organise des LAN à Cergy Pontoise : http://ensearena.net
Hors ligne
#10 Le 26/06/2007, à 18:36
- selene10308
Re : [info] Aspirer un site avec wget
Quelqu'un pourrait-il me dire comment faire pour arriver à naviguer dans le site reconstitué en local ?
Tendre Voyou cher à mon coeur
Hors ligne
#11 Le 27/06/2007, à 12:10
- Bzh
Re : [info] Aspirer un site avec wget
GENIAL comme astuce !!!
Merci BEAUCOUP !:)
Hors ligne
#12 Le 27/06/2007, à 19:58
- Polo
Re : [info] Aspirer un site avec wget
euh en fait il y a un programme fait exprès pour l'aspiration de sites...
c'est httrack.
httrack www.votresite.com
, et votre site est sauvegardé...
Bon, comme l'a dit roicominutsoup, ca chope le résultat des pages dynamiques.... (donc pas le code php par exemple)
C'est parce que la lumière se propage plus vite que le son que certains parraissent être des lumières avant qu'ils n'ouvrent leurs gueules....
Hors ligne
#13 Le 29/06/2007, à 12:34
- Gari
Re : [info] Aspirer un site avec wget
.En effet, ça fonctionne.
Mais au lieu d'avoir seulement les tutos que je voulais, j'ai eu tout le site - heureusement que ça ne fait que 10 MB.
Un hic tout de même : quand je veux voyager sur le site ainsi reconstitué en local, je reçois le message
"Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."
.
Lorsque tu as aspiré le site avec wget, wget a effectué un nombre énorme de requêtes au serveur de ce site pour récupérer les pages. Le site s'en est rendu compte et a tout simplement décidé de te refuser l'accès (règle de gestion interdisant aux gens de faire trop de requêtes quoi).
Donc, au lieu de récupérer les pages html voulues, tu as récupéré des pages html dans lesquelles ne sont stockées QUE le message d'erreur "Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."
Bref, tu n'as pas aspiré le site que tu voulais, mais uniquement des milliers de fichiers html affichant le même message d'erreur.
La solution, c'est de réussir à aspirer en site en restant en dessous du taux de connexion autorisé. Pour ça, il faudrait pouvoir demander à wget de ne faire qu'un certain nombre de connexion par unité de temps. Mais là, je te laisse lire le man parce que je ne sais même pas si ça existe.
Hors ligne
#14 Le 08/07/2007, à 17:48
- fay
Re : [info] Aspirer un site avec wget
j'ai installé le pquet gwget mais en le lancant par le menu, il narrête plus de se lancer dans des fenêtres différentes. je dois le pkiller pour l'arrêter
sinon, la console est parfaite, merci pour cette astuce !
Hors ligne
#15 Le 16/03/2008, à 23:14
- clem87
Re : [info] Aspirer un site avec wget
Oui c'est possible de limiter la rapidité de capture.
rajouter
-w 1
et wget attendra 1s entre chaque demande
Il est aussi possible de limiter le débit mais je sais pu.
J'ai aussi rajouté
-E
. Comme ca wget rajoute une extenssion .html à tout les fichiers.
Combiné au -k ca pose aucun problème pour les liens.
#16 Le 17/03/2008, à 00:00
- Ras'
Re : [info] Aspirer un site avec wget
joli up
Tant qu'on y est, comment se fait ce que quand j'essai de télécharger tous les pdf d'une page avec
wget -r -A.pdf http://www.iei.liu.se/pub/jsp/polopoly.jsp?d=14058&a=96222
ça ne fonctionne pas ?
Va t'faire shampouiner par le compteur_V2 en timezone[Canada/Eastern] !
Les types awesome n'ont rien à prouver. À personne.
'k bye là
Hors ligne
#17 Le 18/03/2008, à 02:19
- CyrilouGarou
Re : [info] Aspirer un site avec wget
Y a - t il moyen d'utiliser wget pour télécharger la première image de la page renvoyée quand on tape par exemple dans firefox
http://images.google.fr/images?q=trucbidul
(Mon idée est d'automatiser la recherche et le téléchargement d'une photo d'un artiste pour chacun de mes dossiers d'artiste dans ma collection films et de zic)
Ma page artiste soundcloud https://soundcloud.com/la-reponse
Hors ligne
#18 Le 22/03/2008, à 11:25
- CyrilouGarou
Re : [info] Aspirer un site avec wget
up ?
Ma page artiste soundcloud https://soundcloud.com/la-reponse
Hors ligne
#19 Le 22/03/2008, à 11:53
- Ras'
Re : [info] Aspirer un site avec wget
Je sais pas trop, mais en attendant pour ta musique t'as déja ça :
http://forum.ubuntu-fr.org/viewtopic.php?pid=1595708
Va t'faire shampouiner par le compteur_V2 en timezone[Canada/Eastern] !
Les types awesome n'ont rien à prouver. À personne.
'k bye là
Hors ligne
#20 Le 22/03/2008, à 13:41
- Oliv Mérou
Re : [info] Aspirer un site avec wget
joli up
Tant qu'on y est, comment se fait ce que quand j'essai de télécharger tous les pdf d'une page avec
wget -r -A.pdf http://www.iei.liu.se/pub/jsp/polopoly.jsp?d=14058&a=96222
ça ne fonctionne pas ?
Salut ,
Pour info, j'ai testé ta commande, et ça me télécharge un seul fichier pdf dénommé InbjudanPADOK2008.pdf.
Dernière modification par Oliv Mérou (Le 22/03/2008, à 13:44)
Desktop Medion MT6, ram 1 Go, cpu 1,93 Ghz, carte graph ATI X300SE. Terroriste-communiste-chinois-sectaire-cannibale-du-libre
Hors ligne
#21 Le 22/03/2008, à 15:01
- CyrilouGarou
Re : [info] Aspirer un site avec wget
J'avais vu ce lien.
Je vais rappeler précisément ce que je cherche à scripter:
Mon dossier musique est organisé comme ça:
~/musique/(1ère lettre du nom de l'artiste)/(nom de l'artiste)/(album)/(chanson.ogg)
Je voudrais que pour chacun des artistes de mon dossier musique, une recherche soit envoyée sous google-images qui me renvoie le 1er png de taille moyenne, le stocke, et le fasse utiliser par nautilus comme icône pour le dossier artiste en question.
Ce script que tu me proposes donne beaucoup trop de boulot à faire manuellement pour mes 300 artistes !
Ma page artiste soundcloud https://soundcloud.com/la-reponse
Hors ligne
#22 Le 28/03/2008, à 14:37
- CyrilouGarou
Re : [info] Aspirer un site avec wget
up ????????????
Ma page artiste soundcloud https://soundcloud.com/la-reponse
Hors ligne
#23 Le 28/03/2008, à 17:21
- CyrilouGarou
Re : [info] Aspirer un site avec wget
En fait ça fait un peu doublon avec ça: http://forum.ubuntu-fr.org/viewtopic.php?id=199506
Ma page artiste soundcloud https://soundcloud.com/la-reponse
Hors ligne
#24 Le 29/03/2008, à 14:21
- pabix
Re : [info] Aspirer un site avec wget
Ça fait surtout doublon avec http://forum.ubuntu-fr.org/viewtopic.php?id=78954 !
Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D
Hors ligne
#25 Le 29/03/2008, à 16:34
- Ras'
Re : [info] Aspirer un site avec wget
Peut être que du coup tu pourrais m'aider là dessus du coup : http://forum.ubuntu-fr.org/viewtopic.php?pid=1609327#p1609327
J'ai plus besoin de ce cours mais j'aimerais bien comprendre...
Va t'faire shampouiner par le compteur_V2 en timezone[Canada/Eastern] !
Les types awesome n'ont rien à prouver. À personne.
'k bye là
Hors ligne