Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#26 Le 30/03/2008, à 14:51

pabix

Re : [info] Aspirer un site avec wget

Ben... Je ne vois aucun fichier pdf lié à cette page lorsque je m'y connecte... Donne ton cookie à bouffer à wget peut-être, comme expliqué sur mon topic.


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#27 Le 30/03/2008, à 16:48

CyrilouGarou

Re : [info] Aspirer un site avec wget

En attendant le petit script que je cherchais à faire, je vois toujours pas.

Quand je fais une recherche sur google images avec le mot clé truc par exemple j'obtiens dans la barre d'adresse ça:

http://images.google.fr/images?hl=fr&q=truc&btnG=Recherche+d%27images&gbv=2

un wget à cette adresse donne une erreur.

Moi j'aimerais récupérer la première image png sur la page...

Ça doit pas être infaisable ...


Ma page artiste soundcloud https://soundcloud.com/la-reponse

Hors ligne

#28 Le 30/03/2008, à 17:02

Ras'

Re : [info] Aspirer un site avec wget

Il faut que tu chope le code source de la page, que tu le mette dans un fichier temporaire, et que tu fasse mumuse avec grep pour trouver le moyen de choper le premier url de l'image, ici : http://delphi.developpez.com/cours/gui/screenmate/truc.gif

bon courage :\

Dernière modification par Raskal (Le 30/03/2008, à 17:02)


Va t'faire shampouiner par le compteur_V2 en timezone[Canada/Eastern] !
 
Les types awesome n'ont rien à prouver. À personne.
'k bye là

Hors ligne

#29 Le 08/12/2008, à 00:40

demenvil

Re : [info] Aspirer un site avec wget

Salut j'ai utiliser cette ligne de code

wget -r -k -np AdresseDeLaPage

tous fonctionne nikel sauf le fait est que je ne sais pas ou s'enregistre le fichier...
merci

#30 Le 08/12/2008, à 21:23

k-boite

Re : [info] Aspirer un site avec wget

par défaut c'est dans le répertoire courant, non?

~ <=> dossier utilisateur
ou bien un autre répertoire si tu as changé de répertoire courant (commande cd)

(pour savoir quel est le répertoire courant, la commande est pwd... enfin je te conseille d'en apprendre plus sur la ligne de commande en lisant la doc)

Hors ligne

#31 Le 08/02/2009, à 11:56

Pardalis

Re : [info] Aspirer un site avec wget

Je confirme : c'est bien dans le répertoire courant. Wget crée un dossier au nom du site aspiré.

Pour aspirer un site en entier et le rendre entièrement consultable en local :
wget -m -p -k [url du site]

Hors ligne

#32 Le 12/09/2009, à 09:13

Cristian

Re : [info] Aspirer un site avec wget

selene10308 a écrit :

.En effet, ça fonctionne.

Mais au lieu d'avoir seulement les tutos que je voulais, j'ai eu tout le site - heureusement que ça ne fait que 10 MB.

Un hic tout de même : quand je veux voyager sur le site ainsi reconstitué en local, je reçois le message

"Vous envoyez trop de requêtes à notre serveur. Patientez un peu avant de réessayer."

clem87 a écrit :

Oui c'est possible de limiter la rapidité de capture.
rajouter

-w 1

et wget attendra 1s entre chaque demande

En plus de --wait=1 tu peux rajouter --random-wait tu auras ainsi un temps d'attente aléatoire à ±1s. Par exemple avec la commande --wait=1 --random-wait le temps d'attente sera compris entre 0,5s et 1,5s. Wget aura plus de chances de passer inaperçu.

Extrait de la doc (http://www.gnu.org/software/wget/manual/wget.html)

‘--random-wait’

Some web sites may perform log analysis to identify retrieval programs such as Wget by looking for statistically significant similarities in the time between requests. This option causes the time between requests to vary between 0.5 and 1.5 * wait seconds, where wait was specified using the ‘--wait’ option, in order to mask Wget's presence from such analysis.
A 2001 article in a publication devoted to development on a popular consumer platform provided code to perform this analysis on the fly. Its author suggested blocking at the class C address level to ensure automated retrieval programs were blocked despite changing DHCP-supplied addresses.

The ‘--random-wait’ option was inspired by this ill-advised recommendation to block many unrelated users from a web site due to the actions of one.

Je te conseil également d'augmenter --wait à plus de 4s si tu as toute la nuit devant toi pour être sûr que wget ne se fasse pas bloquer en cours d'exécution.

Hors ligne

#33 Le 10/10/2009, à 19:09

cherif1969

Re : [info] Aspirer un site avec wget

Salut
comment peut-on savoir la capacité du site à télécharger avant ?

Merci

Hors ligne

#34 Le 10/10/2009, à 22:58

cherif1969

Re : [info] Aspirer un site avec wget

Salut
je voudrais aspirer ce site
http://www.booksshouldbefree.com/

comment faut-il procèder ?

merci

Hors ligne

#35 Le 16/10/2009, à 17:57

cherif1969

Re : [info] Aspirer un site avec wget

Salut
est-ce qu'on peut affiner l'aspiration ?
je voudrais d'un site que les couvertures et les audio en mp3 et zip
un genre précis de livre comme classic
c'est un site audio livre gratuit ... je précise
comme
www.audiocite.net

merci

Hors ligne

#36 Le 21/10/2009, à 10:40

Valentin2105

Re : [info] Aspirer un site avec wget

Pour ceux qui ne sont pas au courant, quand on lance une commande pour un site et on voit que cela devient long, si on ferme la fenêtre de terminal, la téléchargement continu, donc il faut ouvrir une autre console et faire un petit killall wget !
Juste une précision pour les débutant (cela m'aurais fais chier que wget télécharge pendant des heures si je ne savais comment l'arrêter  !!)

Hors ligne

#37 Le 21/10/2009, à 10:49

wido

Re : [info] Aspirer un site avec wget

on fait un ctrl+c pour tuer l'application dans la même console.

Hors ligne

#38 Le 31/10/2009, à 21:32

robinfredericf

Re : [info] Aspirer un site avec wget

Travaillant dans une imprimerie, je reçois tous les jours des commandes de calendriers avec des logos fournis par les clients en jpeg à 72 dpi alors qu'il les faudrait en vectoriel (ai, pdf ou eps, ou à la rigueur svg ou cdr) pour imprimer en Pantone ou plus rarement en quadri. Pourtant les graphistes qui leur ont créé leur logo ont dû leur fournir à coup sûr leur logo en ai ou en eps accompagné d'une vignette de prévisualisation en jpeg mais quand le responsable dans la société cliente n'y connaissant rien reçoit ça (par mail ou sur cd), il ne peut visualiser sur son pc windows que la vignette jpeg, en conclut que les ai ou eps sont des déchets du genre comme les fichiers thumbs qu'on trouve toujours partout dans les dossiers d'images et envoie la vignette à l'imprimerie. Dans d'autres cas, il envoient des logos jpeg ou png voire gif qu'ils ont simplement copiés sur le site web de leur société, le fait qu'un logo de 200x100 pixels par exemple ne convient pas à un imprimeur leur passant totalement au-dessus.

Donc pour éviter de contrarier le client j'essaie souvent de dégoter son logo en vectoriel sur le site web de sa société. Si le format svg avait été assez popularisé pour qu'on trouve le logo en svg au lieu de jpeg sur la page d'accueil, ça serait l'amérique (le seul petit défaut de ce format étant que c'est en RVB), seulement c'est un format assez rare sur les pages web. Sans ça si le logo a été incorporé en vectoriel dans une animation flash j'arrive aussi à le récupérer ouvrant l'animation .swf (et non la page html ou elle est incorporée) dans firefox et en imprimant vers un serveur d'impression qui crée des pdf. Mais le plus souvent mon seul espoir de trouver le logo vectoriel est qu'il apparaisse dans les fiches techniques, brochures et autres catalogues pdf à télécharger (s'ils ont été créés par un studio graphique compétent et pas par une secrétaire dans word ou excel). Mais ouvrir un par un tous les pdf depuis les innombrables pages jusqu'à en trouver un valable ou m'apercevoir qu'il n'y en a aucun d'utilisable prend trop longtemps.

J'ai donc fait pour gagner du temps des essais au travail sur Mac Os 10.5 et chez moi sur Ubuntu 9.04 pour aspirer tout les pdf d'un site avec wget et l'option -A mais ça marche pas trop

exemple de commande qui a marché
wget -r -l16 -A.pdf -e robots=off http://www.henkel.fr/
arrêté au bout de 4 h 1/2, récupéré 149 pdf (287.1 Mio) et rien d'autre (à part des dossiers vides)

mếme commande avec juste un autre site, marche pas
wget -r -l16 -A.pdf -e robots=off http://www.cga13.fr/
va savoir pourquoi, aucun pdf récupéré alors qu'il y en a 24 dans le répertoire http://www.cga13.fr/images/upload/upl/ comme on peut le constater si on aspire tout le site en supprimant "-A.pdf"

marche pas non plus
wget -r -l16 -A.pdf -e robots=off http://www2.hima.com/
aucun pdf récupéré alors qu'il y en a dans les sous répertoires "Actualites", "Contact" et "Meta", qu'on trouve si on aspire tout le site

Hors ligne

#39 Le 21/12/2010, à 08:29

systemex2

Re : [info] Aspirer un site avec wget

salut les amis
je veux savoir si on peut filtrer les fichiers telecharger avec wget
par exemple je ne veux telecharger que les pages qui commencent par tutoreil*
c'est fesable non??

Hors ligne

#40 Le 21/12/2010, à 11:42

wido

Re : [info] Aspirer un site avec wget

exemple:

wget -r -l5 -k -nc -E -A .jpg -R thumbbig-*.jpg thumb-*.jpg

cette commande télécharge uniquement les .jpg et exclus les fichiers commencant par thumbbig-*-.jpg

tout est expliqué dans:

man wget

Hors ligne

#41 Le 21/12/2010, à 23:03

systemex2

Re : [info] Aspirer un site avec wget

merci beaucoup Wido

Hors ligne

#42 Le 03/03/2011, à 00:02

zilnim

Re : [info] Aspirer un site avec wget

Bonjour

j'ai un soucis avec wget
pour les -reject
si je mets par exemple index*, il rejette bien index mais si j'ai une page du style www.nomdedomaine.com/truc.html?table=12

si je veux rejetter ?table*, c'est ne fonctionne pas

merci de votre aide
Zil...

Hors ligne

#43 Le 12/03/2011, à 20:20

vigny

Re : [info] Aspirer un site avec wget

Vous pouvez utiliser :

wget -c -np -r -p -k [lien_du_site]

consulter le ce blog pour plus d'info

Dernière modification par vigny (Le 12/03/2011, à 20:22)

Hors ligne

#44 Le 12/03/2011, à 23:50

Cristian

Re : [info] Aspirer un site avec wget

zilnim a écrit :

j'ai un soucis avec wget
pour les -reject
si je mets par exemple index*, il rejette bien index mais si j'ai une page du style www.nomdedomaine.com/truc.html?table=12

si je veux rejetter ?table*, c'est ne fonctionne pas

C'est specifié dans la doc que c'est impossible :
Note, too, that query strings (strings at the end of a URL beginning with a question mark ('?') are not included as part of the filename for accept/reject rules, even though these will actually contribute to the name chosen for the local file. It is expected that a future version of Wget will provide an option to allow matching against query strings.

Hors ligne

#45 Le 13/03/2011, à 00:10

Cristian

Re : [info] Aspirer un site avec wget

systemex2 a écrit :

salut les amis
je veux savoir si on peut filtrer les fichiers telecharger avec wget
par exemple je ne veux telecharger que les pages qui commencent par tutoreil*
c'est fesable non??

Je pense que tu as trouvée depuis la solution, mais ça peut aider quelque d'autre:
j'aurais plutôt utilise cette commande :
wget --recursive -l inf --page-requisites --wait=1 --random-wait --accept "tutoreil*" http://www.host.com

à savoir que wget te téléchargera toutes les pages, même si elles ne commencent pas par "tutoriel", pour vérifier qu'aucun lien de ne se trouve  à l'intérieur.

Dernière modification par Cristian (Le 13/03/2011, à 00:12)

Hors ligne

#46 Le 04/10/2011, à 11:36

spinoziste

Re : [info] Aspirer un site avec wget

Salut à tous .  J'ai une requete bien specifique .

L'on m' a recemment demandé de recolter tous les titres mp3 live d'un artiste .
Ceux ci sont disponibles sur un site et libres d'etres telechargés . J'aimerais donc télécharger uniquement les fichiers .mp3 de ce site Or ils sont tres nombreux et l'idéal serait qu'ils se telechargent dans des dossiers respectifs à leur origine .
ex : Live 99 = dans dossier_1 (ou "ideal" :  Live_99)

Bon ça n'a pas l'air tres clair tout ça mais c'est assez logique .

Comment puis je proceder .? Ayant deja utilisé l'interface navigateur de httrack (celle ci ne donnant pas de resultats satisfaisants)

Merci d'avance aux contributeurs et contributrices ubunteros .

EDIT  J'ai plus de precisions . Le site est ainsi fait : " /event/1/audios " correspond au live 1 et ainsi de suite jusqu'au " /event/222/audios " .

Dernière modification par spinoziste (Le 04/10/2011, à 11:49)


Nous mourrons tous .

Hors ligne

#47 Le 04/10/2011, à 13:06

wido

Re : [info] Aspirer un site avec wget

Pourquoi ne pas donner le lien du site pour que l'on teste?

Hors ligne

#48 Le 04/10/2011, à 16:38

spinoziste

Re : [info] Aspirer un site avec wget

Ouais pas con .
C'est saezlive.net


Nous mourrons tous .

Hors ligne

#49 Le 05/10/2011, à 16:47

spinoziste

Re : [info] Aspirer un site avec wget

A mon humble avis va falloir fonctionner par script .


Nous mourrons tous .

Hors ligne

#50 Le 25/11/2011, à 14:03

Natim

Re : [info] Aspirer un site avec wget

Essaye :

for i in {1..1731}
do
    wget  -O ${i}.mp3 http://www.saezlive.net/download/audio/${i}
done

Dernière modification par Natim (Le 25/11/2011, à 14:05)

Hors ligne