Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#151 Le 07/03/2010, à 05:58

Ph3nix_

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

DecIRC a écrit :

Et si on aspirait Google ?

http://www.google.com/search?hl=en&lr=&q=www n'a jamais que 8.710.000.000 de réponses (à peu près hein)

(Je sais je suis HS etc..)

Mais désormais cette requète donne: 17,390,000,000 réponse
Plus du double en 3ans yikes


Hiroshima 45 / Chernobyl 86 / Windows '95

Hors ligne

#152 Le 09/03/2010, à 17:06

MacFlemme

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bonjour,

est il possible de récupérer les adresses de tout un site dans un fichier texte ?? du style

http://www.monsite/pages1
http://www.monsite/pages2
......



Je vous remercie d'avance

Bonne fin de journée

Hors ligne

#153 Le 16/03/2010, à 16:03

cracolinux

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

De même que MacFlemme, j'aimerais enregistrer dans un fichier toute l'arborescence d'un site:

/toto/repertoire1/sousrep1
/toto/repertoire1/sousrep2
/toto/repertoire2
/toto/repertoire3

etc... (je vais pas écrire tous les toto...)

je pense que wget peut m'aider, mais j'ai pas trouvé comment. Si quelqu'un sait faire ça..:D


Pixup : postez vos images vite et bien - Wificheck : Aidez nous à vous aider

« Ne devenez jamais pessimiste. Un pessimiste a plus souvent raison qu'un optimiste, mais l'optimiste s'amuse plus — et aucun des deux ne peut arrêter la marche du monde. » R.Heinlein

Hors ligne

#154 Le 17/04/2010, à 18:21

bece

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Lynx (le navigateur par la console en est capable).
Ca doit donner un truc du genre :
lynx -traversal "nomdusite" > arborescence.txt

PS : je précise que ce n'est peut-être pas la forme exact. Mais ça donne une idée.


"L'informatique, c'est l'art de passer 15 jours à gagner 5 millisecondes"

Hors ligne

#155 Le 29/07/2011, à 02:43

seneque

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Excellent !
J'ai trouvé cela aussi qui dois revenir sensiblement au même.

wget -r -k -np -T 10 -w 3 -t 1 http://www.monsite.fr/

Définition des diverses options :

* -r : comme presque toujours, l’option -r (–recursive), téléchargera les sous dossiers du site et ainsi les liens annexes
* -k : modifie les liens pour pointer localement
* -np : empêche de remonter dans le répertoire supèrieur
* -w : fait patienter quelques secondes entre chaque requête, afin d’alléger le poids sur le serveur
* -T 10 : temps maximum pour aspirer un lien;
* -t 1 : le nombre de tentative de connection en cas d’erreur 404
*  -i fichier : --input-file=fichier


«Personne ne se soucie de bien vivre , mais de vivre longtemps, alors que tous peuvent se donner le bonheur de bien vivre, aucun de vivre longtemps.»
[ Sénèque ]

Hors ligne

#156 Le 29/07/2011, à 12:36

Slystone

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

J'aime bien l'option -w, les robots laissent faire.


«Rigid, the skeleton of habit alone upholds the human frame.» - Virginia Woolf.

Hors ligne

#157 Le 17/09/2011, à 20:19

Compte anonymisé

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?

#158 Le 17/09/2011, à 20:43

Ayral

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

titou345 a écrit :

Y'a pas une option pour ne télécharger qu'un type de fichier ( .pdf par exemple ) ?

http://forum.ubuntu-fr.org/viewtopic.ph … 4#p2900134


Pour mettre les retours de commande entre deux balises code, les explications sont là : https://forum.ubuntu-fr.org/viewtopic.php?id=1614731
Blog d'un retraité
Site de graphisme du fiston Loïc
Ubuntu 22.04 LTS sur un Thinkpad W540

Hors ligne

#159 Le 17/09/2011, à 22:53

Compte anonymisé

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Merci, entre temps j'avais trouvé ! smile

#160 Le 25/08/2012, à 18:30

massire1

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

C'est super les gars. Trop Top ! Merci

Hors ligne

#161 Le 24/04/2013, à 16:12

Compte anonymisé

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bonjour, bonjour,

déterrage de topic !

J'aimerais avoir votre expertise sur l’utilisation de la fonction -X.

Si ma commande originale est

wget -np -r -w 2 -l5 -k -E -t 1 "http://www.monsite.fr"

Si je veux exclure certains sous-répertoires, comment dois-je le formuler ? Parce qu'en suivant un manuel je lis

Spécifie une liste de répertoires séparés par des virgules que vous voulez exclure du téléchargement. Les éléments de liste peuvent contenir des caractères génériques.

Mais alors cette commande serait bonne ?

wget -np -r -w 2 -l5 -k -E -t 1 -X http://www.monsite.fr/sousrépertoire1/, http://www.monsite.fr/sousrépertoire2 "http://www.monsite.fr"

Merci à vous. smile

Dernière modification par titou345 (Le 26/04/2013, à 10:16)

#162 Le 26/04/2013, à 10:16

Compte anonymisé

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Personne ? sad

#163 Le 26/04/2013, à 10:33

miniSeb

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bah... Tu as testé ?

Tu te fais un petit site vite fait avec des dossiers genre img/ et css/, tu le lances dans un mini-serveur web

cd dossier/avec/ton/site && python -m SimpleHTTPServer

et puis tu testes le rapatriement avec ta commande...

Par contre de ce que je vois dans le man, les chemins des dossiers à ignorer sont des chemins relatifs :

wget -X " -X /~nobody,/~somebody

Hors ligne

#164 Le 26/04/2013, à 10:52

Compte anonymisé

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Mais tout le monde n'est pas capable de se créer son petit site vite fait. big_smile

J'ai testé la commande (d'abord sans l'exclusion) mais j'ai un souci. Malgré l'option -np wget revient vers la page d'accueil.

Edit : J'ai abandonné l'idée des exclusions mais j'ai un nouveau souci, c'est que le site demande une authentification et même avec la commande suivante quand je vais ouvrir le .html qui en résulte je tombe sur la page d'authentification. hmm

wget -np -r -w 1 -l2 -k -E -t 1 --http-user=monidentifiant --http-password=monmotdepasse http://...

Dernière modification par titou345 (Le 26/04/2013, à 11:17)

#165 Le 26/04/2013, à 11:57

miniSeb

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

C'est donc bien des chemins relatifs et ça fonctionne sans souci.

Je t'ai envoyé par mail le petit site que j'ai fait et ça donne

wget -r 0:8000                  # Rapatrie l'ensemble
wget -r -X /img,/subdir 0:8000  # Ne rapatrie que index.html

Hors ligne