Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".
Test de l'ISO d'Ubuntu francophone : nous avons besoin de testeurs pour la version francophone d'Ubuntu 14.04. Liens et informations ici.

#151 Le 07/03/2010, à 05:58

Ph3nix_

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

DecIRC a écrit :

Et si on aspirait Google ?

http://www.google.com/search?hl=en&lr=&q=www n'a jamais que 8.710.000.000 de réponses (à peu près hein)

(Je sais je suis HS etc..)

Mais désormais cette requète donne: 17,390,000,000 réponse
Plus du double en 3ans yikes


Hiroshima 45 / Chernobyl 86 / Windows '95

Hors ligne

#152 Le 09/03/2010, à 17:06

MacFlemme

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bonjour,

est il possible de récupérer les adresses de tout un site dans un fichier texte ?? du style

http://www.monsite/pages1
http://www.monsite/pages2
......



Je vous remercie d'avance

Bonne fin de journée

Hors ligne

#153 Le 16/03/2010, à 16:03

cracolinux

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

De même que MacFlemme, j'aimerais enregistrer dans un fichier toute l'arborescence d'un site:

/toto/repertoire1/sousrep1
/toto/repertoire1/sousrep2
/toto/repertoire2
/toto/repertoire3

etc... (je vais pas écrire tous les toto...)

je pense que wget peut m'aider, mais j'ai pas trouvé comment. Si quelqu'un sait faire ça..:D


Pixup : postez vos images vite et bien
« Ne devenez jamais pessimiste. Un pessimiste a plus souvent raison qu'un optimiste, mais l'optimiste s'amuse plus — et aucun des deux ne peut arrêter la marche du monde. » R.Heinlein

Hors ligne

#154 Le 17/04/2010, à 18:21

bece

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Lynx (le navigateur par la console en est capable).
Ca doit donner un truc du genre :
lynx -traversal "nomdusite" > arborescence.txt

PS : je précise que ce n'est peut-être pas la forme exact. Mais ça donne une idée.


http://www.jeremychevrier.com/ -> un jour j'aurai le courage de le réouvrir !
Toshiba Satellite L550-13U - Dual Core T4300 -> Fedora 16
http://www.makinamania.com
"L'informatique, c'est l'art de passer 15 jours à gagner 5 millisecondes"

Hors ligne

#155 Le 29/07/2011, à 02:43

seneque

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Excellent !
J'ai trouvé cela aussi qui dois revenir sensiblement au même.

wget -r -k -np -T 10 -w 3 -t 1 http://www.monsite.fr/

Définition des diverses options :

* -r : comme presque toujours, l’option -r (–recursive), téléchargera les sous dossiers du site et ainsi les liens annexes
* -k : modifie les liens pour pointer localement
* -np : empêche de remonter dans le répertoire supèrieur
* -w : fait patienter quelques secondes entre chaque requête, afin d’alléger le poids sur le serveur
* -T 10 : temps maximum pour aspirer un lien;
* -t 1 : le nombre de tentative de connection en cas d’erreur 404
*  -i fichier : --input-file=fichier


«Personne ne se soucie de bien vivre , mais de vivre longtemps, alors que tous peuvent se donner le bonheur de bien vivre, aucun de vivre longtemps.»
[ Sénèque ]

Hors ligne

#156 Le 29/07/2011, à 12:36

Slystone

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

J'aime bien l'option -w, les robots laissent faire.


« Rigid, the skeleton of habit alone upholds the human frame. » - Virginia Woolf.
Mon petit blog avec mes tutos, mes trads, et mes humeurs (commentaires bienvenus).
Co-fondateur de GoeLUG, le Gull du Havre

Hors ligne

#157 Le 17/09/2011, à 20:19

titou345

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?


Machin a dit truc-bidule.
Bref, moi je suis cultivé quoi.

Hors ligne

#158 Le 17/09/2011, à 20:43

Ayral

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

titou345 a écrit :

Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?

http://forum.ubuntu-fr.org/viewtopic.ph … 4#p2900134

Hors ligne

#159 Le 17/09/2011, à 22:53

titou345

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Merci, entre temps j'avais trouvé ! smile


Machin a dit truc-bidule.
Bref, moi je suis cultivé quoi.

Hors ligne

#160 Le 25/08/2012, à 18:30

massire1

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

C'est super les gars. Trop Top ! Merci

Hors ligne

#161 Le 24/04/2013, à 16:12

titou345

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bonjour, bonjour,

déterrage de topic !

J'aimerais avoir votre expertise sur l’utilisation de la fonction -X.

Si ma commande originale est

wget -np -r -w 2 -l5 -k -E -t 1 "http://www.monsite.fr"

Si je veux exclure certains sous-répertoires, comment dois-je le formuler ? Parce qu'en suivant un manuel je lis

Spécifie une liste de répertoires séparés par des virgules que vous voulez exclure du téléchargement. Les éléments de liste peuvent contenir des caractères génériques.

Mais alors cette commande serait bonne ?

wget -np -r -w 2 -l5 -k -E -t 1 -X http://www.monsite.fr/sousrépertoire1/, http://www.monsite.fr/sousrépertoire2 "http://www.monsite.fr"

Merci à vous. smile

Dernière modification par titou345 (Le 26/04/2013, à 10:16)


Machin a dit truc-bidule.
Bref, moi je suis cultivé quoi.

Hors ligne

#162 Le 26/04/2013, à 10:16

titou345

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Personne ? sad


Machin a dit truc-bidule.
Bref, moi je suis cultivé quoi.

Hors ligne

#163 Le 26/04/2013, à 10:33

miniSeb

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bah... Tu as testé ?

Tu te fais un petit site vite fait avec des dossiers genre img/ et css/, tu le lances dans un mini-serveur web

cd dossier/avec/ton/site && python -m SimpleHTTPServer

et puis tu testes le rapatriement avec ta commande...

Par contre de ce que je vois dans le man, les chemins des dossiers à ignorer sont des chemins relatifs :

wget -X " -X /~nobody,/~somebody

Hors ligne

#164 Le 26/04/2013, à 10:52

titou345

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Mais tout le monde n'est pas capable de se créer son petit site vite fait. big_smile

J'ai testé la commande (d'abord sans l'exclusion) mais j'ai un souci. Malgré l'option -np wget revient vers la page d'accueil.

Edit : J'ai abandonné l'idée des exclusions mais j'ai un nouveau souci, c'est que le site demande une authentification et même avec la commande suivante quand je vais ouvrir le .html qui en résulte je tombe sur la page d'authentification. hmm

wget -np -r -w 1 -l2 -k -E -t 1 --http-user=monidentifiant --http-password=monmotdepasse http://...

Dernière modification par titou345 (Le 26/04/2013, à 11:17)


Machin a dit truc-bidule.
Bref, moi je suis cultivé quoi.

Hors ligne

#165 Le 26/04/2013, à 11:57

miniSeb

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

C'est donc bien des chemins relatifs et ça fonctionne sans souci.

Je t'ai envoyé par mail le petit site que j'ai fait et ça donne

wget -r 0:8000                  # Rapatrie l'ensemble
wget -r -X /img,/subdir 0:8000  # Ne rapatrie que index.html

Hors ligne

Haut de page ↑