Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 19/12/2005, à 20:43

roicominutsoup

[info] Aspirer un site avec wget

wget est un utilitaire très pratique puisqu'il permet de télécharger des fichiers à partir de la ligne de commande.

Il permet également d'aspirer des sites.
Pour aspirer une page est ses liens sans sortir du domaine et sans remonter dans les répertoires parents :
wget -r -k -np AdresseDeLaPage
l'option -r signifie que le téléchargement sera récursif (il télécharge aussi les liens de la page)
le -k permet de reconstituer le site localement (les liens sont modifié pour pointer localement)
le -np empêche de remonter dans le répertoire parent.

faire un
man wget
pour des options plus avancées.

Hors ligne

#2 Le 20/12/2005, à 00:31

bourrinlepoulpe

Re : [info] Aspirer un site avec wget

ha cool très pratique ma foi !

j' avais la flemme de repasser par gftp pour DL tout mon site pour en faire une sauvegarde

Hors ligne

#3 Le 20/12/2005, à 08:54

roicominutsoup

Re : [info] Aspirer un site avec wget

Attention bourrinlepoulpe, wget télécharge du point de vue utilisateur, si tu as des éléments dynamiques sur ton site (php,cgi...), ceux-ci deviendront des pages statiques. Le résultat final n'est donc pas le même qu'un donwload par ftp.

Hors ligne

#4 Le 20/12/2005, à 09:16

benjou

Re : [info] Aspirer un site avec wget

pour ceux qui n'aiment pas la ligne de commande:

'webhttrack'


écrasons l'infâme

Hors ligne

#5 Le 15/01/2006, à 19:28

bourrinlepoulpe

Re : [info] Aspirer un site avec wget

oh point de problme j'ai que du html c'est un site tout pourri ^^

Hors ligne

#6 Le 26/06/2007, à 05:32

selene10308

Re : [info] Aspirer un site avec wget

.En effet, ça fonctionne.

Mais au lieu d'avoir seulement les tutos que je voulais, j'ai eu tout le site - heureusement que ça ne fait que 10 MB.

Un hic tout de même : quand je veux voyager sur le site ainsi reconstitué en local, je reçois le message

"Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."

.

Dernière modification par selene10308 (Le 26/06/2007, à 05:47)


Tendre Voyou cher à mon coeur

Hors ligne

#7 Le 26/06/2007, à 15:09

cheuveulu

Re : [info] Aspirer un site avec wget

Bonne astuce.
Très pratique pour avoir des documentations off-ligne


Serveurs Call Of Duty 2 El!teMoD et Call of duty 4 : http://team-elite.fr

Hors ligne

#8 Le 26/06/2007, à 15:18

Compte anonymisé

Re : [info] Aspirer un site avec wget

Il y a une interface GTK pour wget :

sudo apt-get install gwget

#9 Le 26/06/2007, à 17:41

Orni

Re : [info] Aspirer un site avec wget

A savoir pour la récursivité, on peut choisir la profondeur max ou on va ( ça peut être utile sur des gros sites)


ENSEArena organise des LAN à Cergy Pontoise : http://ensearena.net

Hors ligne

#10 Le 26/06/2007, à 18:36

selene10308

Re : [info] Aspirer un site avec wget

Quelqu'un pourrait-il me dire comment faire pour arriver à naviguer dans le site reconstitué en local ?


Tendre Voyou cher à mon coeur

Hors ligne

#11 Le 27/06/2007, à 12:10

Bzh

Re : [info] Aspirer un site avec wget

GENIAL comme astuce !!!

Merci BEAUCOUP !:)

Hors ligne

#12 Le 27/06/2007, à 19:58

Polo

Re : [info] Aspirer un site avec wget

euh en fait il y a un programme fait exprès pour l'aspiration de sites...

c'est httrack.

httrack www.votresite.com

, et votre site est sauvegardé...
Bon, comme l'a dit roicominutsoup, ca chope le résultat des pages dynamiques.... (donc pas le code php par exemple)


C'est parce que la lumière se propage plus vite que le son que certains parraissent être des lumières avant qu'ils n'ouvrent leurs gueules....

Hors ligne

#13 Le 29/06/2007, à 12:34

Gari

Re : [info] Aspirer un site avec wget

selene10308 a écrit :

.En effet, ça fonctionne.

Mais au lieu d'avoir seulement les tutos que je voulais, j'ai eu tout le site - heureusement que ça ne fait que 10 MB.

Un hic tout de même : quand je veux voyager sur le site ainsi reconstitué en local, je reçois le message

"Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."

.

Lorsque tu as aspiré le site avec wget, wget a effectué un nombre énorme de requêtes au serveur de ce site pour récupérer les pages. Le site s'en est rendu compte et a tout simplement décidé de te refuser l'accès (règle de gestion interdisant aux gens de faire trop de requêtes quoi).
Donc, au lieu de récupérer les pages html voulues, tu as récupéré des pages html dans lesquelles ne sont stockées QUE le message d'erreur "Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."
Bref, tu n'as pas aspiré le site que tu voulais, mais uniquement des milliers de fichiers html affichant le même message d'erreur.

La solution, c'est de réussir à aspirer en site en restant en dessous du taux de connexion autorisé. Pour ça, il faudrait pouvoir demander à wget de ne faire qu'un certain nombre de connexion par unité de temps. Mais là, je te laisse lire le man parce que je ne sais même pas si ça existe.

Hors ligne

#14 Le 08/07/2007, à 17:48

fay

Re : [info] Aspirer un site avec wget

j'ai installé le pquet gwget mais en le lancant par le menu, il narrête plus de se lancer dans des fenêtres différentes. je dois le pkiller pour l'arrêter

sinon, la console est parfaite, merci pour cette astuce !

Hors ligne

#15 Le 16/03/2008, à 23:14

clem87

Re : [info] Aspirer un site avec wget

Oui c'est possible de limiter la rapidité de capture.
rajouter

-w 1

et wget attendra 1s entre chaque demande
Il est aussi possible de limiter le débit mais je sais pu.
J'ai aussi rajouté

-E

. Comme ca wget rajoute une extenssion .html à tout les fichiers.
Combiné au -k ca pose aucun problème pour les liens.

#16 Le 17/03/2008, à 00:00

Ras'

Re : [info] Aspirer un site avec wget

joli up lol

Tant qu'on y est, comment se fait ce que quand j'essai de télécharger tous les pdf d'une page avec

wget -r -A.pdf http://www.iei.liu.se/pub/jsp/polopoly.jsp?d=14058&a=96222

ça ne fonctionne pas ?


Va t'faire shampouiner par le compteur_V2 en timezone[Canada/Eastern] !
 
Les types awesome n'ont rien à prouver. À personne.
'k bye là

Hors ligne

#17 Le 18/03/2008, à 02:19

CyrilouGarou

Re : [info] Aspirer un site avec wget

Y a - t il moyen d'utiliser wget pour télécharger la première image de la page renvoyée quand on  tape par exemple dans firefox

http://images.google.fr/images?q=trucbidul

(Mon idée est  d'automatiser la recherche et le téléchargement d'une photo d'un artiste pour chacun de mes dossiers d'artiste dans ma collection films et de zic)


Ma page artiste soundcloud https://soundcloud.com/la-reponse

Hors ligne

#18 Le 22/03/2008, à 11:25

CyrilouGarou

Re : [info] Aspirer un site avec wget

up ?


Ma page artiste soundcloud https://soundcloud.com/la-reponse

Hors ligne

#19 Le 22/03/2008, à 11:53

Ras'

Re : [info] Aspirer un site avec wget

Je sais pas trop, mais en attendant pour ta musique t'as déja ça :
http://forum.ubuntu-fr.org/viewtopic.php?pid=1595708


Va t'faire shampouiner par le compteur_V2 en timezone[Canada/Eastern] !
 
Les types awesome n'ont rien à prouver. À personne.
'k bye là

Hors ligne

#20 Le 22/03/2008, à 13:41

Oliv Mérou

Re : [info] Aspirer un site avec wget

Raskal a écrit :

joli up lol

Tant qu'on y est, comment se fait ce que quand j'essai de télécharger tous les pdf d'une page avec

wget -r -A.pdf http://www.iei.liu.se/pub/jsp/polopoly.jsp?d=14058&a=96222

ça ne fonctionne pas ?

Salut cool,

Pour info, j'ai testé ta commande, et ça me télécharge un seul fichier pdf dénommé InbjudanPADOK2008.pdf.

Dernière modification par Oliv Mérou (Le 22/03/2008, à 13:44)


Desktop Medion MT6, ram 1 Go, cpu 1,93 Ghz, carte graph ATI X300SE. Terroriste-communiste-chinois-sectaire-cannibale-du-libre

Hors ligne

#21 Le 22/03/2008, à 15:01

CyrilouGarou

Re : [info] Aspirer un site avec wget

J'avais vu ce lien.

Je vais rappeler précisément ce que je cherche à scripter:

Mon dossier musique est organisé comme ça:

~/musique/(1ère lettre du nom de l'artiste)/(nom de l'artiste)/(album)/(chanson.ogg)


Je voudrais que pour chacun des artistes de mon dossier musique, une recherche soit envoyée sous google-images qui me renvoie le 1er png de taille moyenne, le stocke, et le fasse utiliser par nautilus comme icône pour le dossier artiste en question.

Ce script que tu me proposes donne beaucoup trop de boulot à faire manuellement pour mes 300 artistes !


Ma page artiste soundcloud https://soundcloud.com/la-reponse

Hors ligne

#22 Le 28/03/2008, à 14:37

CyrilouGarou

Re : [info] Aspirer un site avec wget

up ????????????


Ma page artiste soundcloud https://soundcloud.com/la-reponse

Hors ligne

#23 Le 28/03/2008, à 17:21

CyrilouGarou

Re : [info] Aspirer un site avec wget

En fait ça fait un peu doublon avec ça: http://forum.ubuntu-fr.org/viewtopic.php?id=199506


Ma page artiste soundcloud https://soundcloud.com/la-reponse

Hors ligne

#24 Le 29/03/2008, à 14:21

pabix

Re : [info] Aspirer un site avec wget

Ça fait surtout doublon avec http://forum.ubuntu-fr.org/viewtopic.php?id=78954 !


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#25 Le 29/03/2008, à 16:34

Ras'

Re : [info] Aspirer un site avec wget

Peut être que du coup tu pourrais m'aider là dessus du coup : http://forum.ubuntu-fr.org/viewtopic.php?pid=1609327#p1609327

J'ai plus besoin de ce cours mais j'aimerais bien comprendre...


Va t'faire shampouiner par le compteur_V2 en timezone[Canada/Eastern] !
 
Les types awesome n'ont rien à prouver. À personne.
'k bye là

Hors ligne