Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".

#51 Le 04/08/2007, à 22:24

weedfast

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

pabix a écrit :

Attention : ce forum ne doit PAS être aspiré automatiquement sous peine de mise de votre adresse IP en liste noire. NE TESTEZ PAS CE SCRIPT SUR LE FORUM UBUNTU-FR. L'aspiration de site doit respecter une certaine éthique et doit être utilisée uniquement lorsqu'il y a un besoin d'accéder à certains contenus hors lignes. À réserver à des sites légers.

Bonjour !

Le titre en disant suffisamment long :

wget -r -l5 -k -E www.unsite.com

Explication :

-r : récursif sur le site
-l5 : cinq niveaux de récursion au maximum
-k : convertir les destinations des liens pour une lecture locale
-E : convertir les types de fichier au format HTML (pour éviter que la lecture de sites en PHP ne foire en lecture sous Firefox).

Benoit

Edit: titre plus approprié

Doublon sur wget !! big_smile

http://forum.ubuntu-fr.org/viewtopic.php?id=114414
http://ubunblox.blogspot.com/2007/04/tutos-wget-et-ses-options.html
http://doc.ubuntu-fr.org/wget


Mon blog : http://ubunblox.servhome.org/  --> Tutos, Astuces, etc...
Portable : Asus Eee PC
Desktop : Asus P4c800, Intel P4C 3Ghz,
Corsair twinx xms Cas 2 2*512,Nvidia 6800GT

Hors ligne

#52 Le 04/08/2007, à 22:31

Chaton

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

®om a écrit :

.... Ça aspire tout internet...
lol

Ouaip, et tu le mets où le contenu de ton résultat !

Si tu veux flinguer ton DD, je te conseille plutôt d'aller voir du coté de la commande rm, il y a des options merveilleuses wink lol:lol::lol:

Chaton.


Si Unity ne vous convient pas, au lieu de rester en 10.04, avez-vous pensé à XFCE (Xubuntu) ?

Hors ligne

#53 Le 30/12/2007, à 19:33

aaa

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

dsl mais ou on doit rentrer le code svp????

#54 Le 30/12/2007, à 19:44

Maxouille

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

dans un terminal hmm

Hors ligne

#55 Le 02/01/2008, à 22:18

Oreste visari

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

J'ai tester cette commandant sur http://socwall.com/, hélas, ça ne prend pas les fond d'écran. Quelqu'un aurais pas une technique pour "aspirer" tous les fonds d'écran?


Elementary OS Luna - Acer Aspire S3

Hors ligne

#56 Le 03/01/2008, à 22:28

Arkenstone

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

A cette ligne on pourrait rajouter --wait=x par exemple, wget attendra ainsi x secondes entre chaque enregistrement de page, ce qui peut éviter les surcharges du serveur etc...

Pour les fonds d'écrans, tu aspires quoi excatement?
Après essai, tu as dans ton dossier cible un petit txt, robots.txt qui te donne deux trois infos concernant l'aspiration du site..
Entre autre, sur ton site:

You agree not to use or launch any automated system, including without limitation, "robots," "spiders," "offline readers," etc., that accesses the Website in a manner that sends more request messages to the Social Wallpapering servers in a given period of time than a human can reasonably produce in the same period by using a convention on-line web browser. Notwithstanding the foregoing, Social Wallpapering grants the operators of public search engines permission to use spiders to copy materials from the site for the sole purpose of creating publicly available searchable indices of the materials, but not caches or archives of such materials. Social Wallpapering reserves the right to revoke these exceptions either generally or in specific cases. You agree not to collect or harvest any personally identifiable information, including account names, from the Website, nor to use the communication systems provided by the Website for any commercial solicitation purposes. You agree not to solicit, for commercial purposes, any users of the Website with respect to their User Submissions.

Donc je te conseille de plutà´t telecharger manuellement les fonds d'écrans qui te plaisent wink

Dernière modification par Arkenstone (Le 03/01/2008, à 22:38)


L'espoir est un premier pas vers la déception.

Hors ligne

#57 Le 06/01/2008, à 18:58

lisendra

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Je pense que ta reponse se trouve ici, pour moi cela fontionne quand je l'utilise
http://wget.addictivecode.org/Frequentl … ons#robots

Par contre je voudrait dire que rapatrier tous le site web ne serait pas fairplay a cause du nombre important de donner qui y sont stocker et surtous du nombres de requetes...comme dit plus haut, selectionne les fond d'ecrans qui te plaise manuelement.


Asus A6000VM [upgrade 1gb mem/120gb HDD]
Ubuntu 7.04/Xp SP2 (vient de revenir sur 6.10 full update)

Hors ligne

#58 Le 09/01/2008, à 21:36

Bourrin54

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Est si on faisait une attaque groupé sur http://microsoft.com/ ? tongue

Tous en meme temps on fais exploser leur serveur lol:lol::lol:


Vous êtes de lorraine ? Vous voulez participer pour Ubuntu ?
Venez m'aider !

Hors ligne

#59 Le 10/01/2008, à 00:22

Yannick_LM

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

@ Oreste visari : Si je peux me permettre, ils fournissent même des torrents pour récupérer les Wallpapers.
Pourquoi ne pas les utiliser ?

http://socwall.com/torrents/

Dernière modification par Yannick_LM (Le 10/01/2008, à 00:23)


Trucs et astuces pour Vim
Ma web page  avec des trucs dessus ...

Hors ligne

#60 Le 10/01/2008, à 10:34

Nimois

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bourrin54 a écrit :

Est si on faisait une attaque groupé sur http://microsoft.com/ ? tongue

Tous en meme temps on fais exploser leur serveur lol:lol::lol:

dans quel but ?


http://www.afrikhiphop.com

Hors ligne

#61 Le 10/01/2008, à 12:04

Polo

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

ouai tout ça c'est bien, mais pourquoi ne pas passer par un logiciel fait exprès pour l'aspiration de sites ?

Je pense surtout à  http://www.httrack.com/

Ce qui est mieux, c'est qu'il y a toute une tripotée d'arguments pour paramétrer l'aspiration. De plus, dans des sites compliqués, il change les liens pour pointer vers la copie sur le disque (ils réorganisent la structure de la page), je sais pas si wget le fait...

Sinon, le principe est le même je pense...

Dernière modification par Polo (Le 10/01/2008, à 12:06)


C'est parce que la lumière se propage plus vite que le son que certains parraissent être des lumières avant qu'ils n'ouvrent leurs gueules....

Hors ligne

#62 Le 10/01/2008, à 14:24

Chaton

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Jadis exista un journal appellé Hebdogiciel.
http://fr.wikipedia.org/wiki/Hebdogiciel

Il y avait dedans une rubrique appellé "la ligne dans la gueule"

C'était une seule ligne, en langage C le plus souvent, qui faisait un truc incroyable. J'ai vu un tétris programmé ainsi sur une seule ligne.

Bien sur, plus personne ne comprenait ce code condensé à  la limite de tout ce qui ne faut pas faire, mais ce qui comptait, c'était le résultat, et il y avait certaines lignes qu'on se prenait vraiment "dans la gueule", tellement c'était fou.

Donc, aspirer un site en une ligne de commande, c'est bien plus classe que d'utiliser un vulgaire logiciel. non ? big_smile

A+

Chaton.


Si Unity ne vous convient pas, au lieu de rester en 10.04, avez-vous pensé à XFCE (Xubuntu) ?

Hors ligne

#63 Le 12/01/2008, à 00:34

Bourrin5400

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Alerte !!!
Comment on stop l'aspiration du site ?

URGENT PLZ yikes:o:o

#64 Le 12/01/2008, à 00:52

Yannick_LM

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

@Bourrin :

killall wget

devrait suffire.

Crtl-C si tu as encore accès au terminal. Mais si tu as fermé la fenêtre dans lequel tu avais lancé wget, il a effectivement continué à  fonctionner en arrière-plan : c'est l'une des fonctionnalités de wget.

Tu peux aussi faire un

pgrep -x wget

pour vérifier : s'il ne te renvoie rien, c'est bon, sinon

 kill -9 `pgrep wget`

Attention, ceci annulera tous les téléchargements en cours.

Tu peux utiliser

ps aux | grep wget | grep -v grep

pour visualiser les numéros des processus concernant wget, et les tuer un par un, avec kill + le numéro.

Voilà 

Dernière modification par Yannick_LM (Le 12/01/2008, à 01:02)


Trucs et astuces pour Vim
Ma web page  avec des trucs dessus ...

Hors ligne

#65 Le 12/01/2008, à 11:23

Bourrin54

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

merci beaucoup


Vous êtes de lorraine ? Vous voulez participer pour Ubuntu ?
Venez m'aider !

Hors ligne

#66 Le 19/04/2008, à 19:49

Sato8782

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Y'as pas un moyens de recuperer une base sql aussi ?

Avec le mdp

#67 Le 22/04/2008, à 15:07

pabix

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Euh oui, il y a un moyen, mais je ne le connais pas par cœur… regarde comment fait phpmyadmin pour ça.


Utilisateur du clavier BÉPO.
mortgat (()) gmail () com
GPG 0x377D716D

Hors ligne

#68 Le 30/04/2008, à 17:36

Dark-Sham

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Pour ce qui est des pages Web dynamiques type PHP ou ASP, avant d'être reçues elles sont converties en HTML ?...

Donc pas de problème pour la propriété intellectuelle wink (mis à part le JS hmm )

Dernière modification par Dark-Sham (Le 30/04/2008, à 17:37)


Script de sauvegarde/restauration APT

Ubuntu 8.04 "Hardy Heron"
CPU : AMD Athlon XP 2800+ ; GPU : ATI Radeon 9250/9200 Series ; RAM : 2 Gigots + 512 Mégots ; Carte mère : Asus A7N8X-E Deluxe

Hors ligne

#69 Le 30/04/2008, à 22:02

\\Ouranos//

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Je suis en train de télécharger la doc d'ubuntu-fr, c'est très pratique...merci pabix!


Ubuntu facile, c'est :
- Dire "Bonjour"
- Lire la doc et les règles du forum avant de poster. Savoir poser une question intelligemment.
- Mettre des balises url autour des liens et un tiret à su.

Hors ligne

#70 Le 30/04/2008, à 22:22

ferreol

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

cela aspire aussi avec des menu en flash?

Hors ligne

#71 Le 30/04/2008, à 23:23

reeth

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Pour la doc d'ubuntu-fr, il existe une version faite par yann disponible sur le forum.

Hors ligne

#72 Le 19/05/2008, à 13:24

Grunt

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

C'est aussi possible d'aspirer les sites qui ne le veulent pas, en se créant un fichier ".wgetrc" dans le répertoire utilisateur et en ajoutant quelque chose comme "robots=no"
Je retrouve la commande ce soir.
Bien sûr, aspirer un site qui a un "robot.txt" interdisant de l'aspirer est contraire à l'éthique du net (me semble bien que c'est illégal, en fait)

ça peut se comprendre, un gars se fait chier à faire un joli site d'images par exemple, avec des explications, des pubs pour le financer, et des boulets vont laisser tourner un script qui wget -c son dossier /Images toutes les 24H lol

#73 Le 22/05/2008, à 10:22

\\Ouranos//

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

®om a écrit :

ça serait sympa un

wget -r -l5 -k -E http://

Ça aspire tout internet...
lol

il faut rajouter une étoile (*) après http:// wink


Ubuntu facile, c'est :
- Dire "Bonjour"
- Lire la doc et les règles du forum avant de poster. Savoir poser une question intelligemment.
- Mettre des balises url autour des liens et un tiret à su.

Hors ligne

#74 Le 22/05/2008, à 10:41

\\Ouranos//

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Bourrin54 a écrit :

Est si on faisait une attaque groupé sur http://microsoft.com/ ? tongue

Tous en meme temps on fais exploser leur serveur lol:lol::lol:

Ouaiiiiiiis! Le 21 Juin, à 13h37! lol Qui est volontaire??
EDIT: Je vais faire un script qui enlève la page, comme ça ça peut tourner des heures!! nyark roll

Dernière modification par Ouranos999 (Le 22/05/2008, à 10:42)


Ubuntu facile, c'est :
- Dire "Bonjour"
- Lire la doc et les règles du forum avant de poster. Savoir poser une question intelligemment.
- Mettre des balises url autour des liens et un tiret à su.

Hors ligne

#75 Le 22/05/2008, à 11:11

Grunt

Re : [Tuto] Rapatrier un site web entier en UNE ligne de commande

Le 21 Juin à 13H37, je suis partant. On peut même laisser tourner des scripts sur des serveurs pour faire plus de monde. Moi et mon serveur, ça fait deux de plus!
Faut synchroniser nos horloges, par contre. tongue

Haut de page ↑