Contenu | Rechercher | Menus

Annonce

Si vous rencontrez des soucis à rester connecté sur le forum (ou si vous avez perdu votre mot de passe) déconnectez-vous et reconnectez-vous depuis cette page, en cochant la case "Me connecter automatiquement lors de mes prochaines visites".
Test de l'ISO d'Ubuntu francophone : nous avons besoin de testeurs pour la version francophone d'Ubuntu 14.04. Liens et informations ici.

Attention, une faille de sécurité dans bash a récemment été rapportée, il est recommandé de mettre à jour son système (plus de détails) *** mise à jour 12/10/2014 ***

#1 Le 10/06/2010, à 18:42

Neldar

Comment aspirer un site en selectionnant ce que l'on veux?

Bonjour,
Voila, j'aimerais savoir comment aspirer un site sans prendre les forums.
J'ai voulu au début l'aspirer a la barbare (après avoir demandé la permission au propriétaire du site qui m'as dit que je pouvais essayer si je voulais... ) mais vu que wget a passé trois jours a pomper les forums, ben j'ai coupé et je me suis dit qu'il fallait que je prenne le site dans les forums. Donc, je m'en remets a vos dires smile J'ai cherché comment faire mais je n'ai trouvé nulle part.
Merci smile

Hors ligne

#2 Le 10/06/2010, à 19:17

Sorkin

Re : Comment aspirer un site en selectionnant ce que l'on veux?

Je pense qu'avec http://doc.ubuntu-fr.org/httrack en bidouillant les options tu devrais pouvoir sans trop de problèmes.

Hors ligne

#3 Le 10/06/2010, à 19:20

Neldar

Re : Comment aspirer un site en selectionnant ce que l'on veux?

Oui, j'ai essayé, j'ai bidoullé pendant longtemps, mais rien n'y fait hmm Je ne dois pas être doué hmm

Hors ligne

#4 Le 11/06/2010, à 20:13

ElricX

Re : Comment aspirer un site en selectionnant ce que l'on veux?

Il y a moyen de télécharger un fichier spécifique qui change de nom? par exemple un nouveau fichier mis en ligne à chaque semaine pat exemple dont le nom varie que très peux? ex: podcast.

Hors ligne

#5 Le 11/06/2010, à 23:15

alex2423

Re : Comment aspirer un site en selectionnant ce que l'on veux?

bien sur, il te suffit de recupérer la page qui contient le lien. La page html ne bouge pas. Tu l'aspire à coup de wget et après tu récupére en parsant à coup de grep ou sinon, tu fais du parsing en php

Hors ligne

#6 Le 12/06/2010, à 00:14

josepe36

Re : Comment aspirer un site en selectionnant ce que l'on veux?

bonsoir

hum wget etc c est bien de dire ça mais ça reste de la théorie, ce que tu dis pas c'est quel type de site?, faut-il s'identifier avec mot de passe ?
dis en un peu plus s 'il te plait, il y a un an je m'etais amuser a faire un truc du style mais surtout pas de wget.
Il me fallait surveiller une page web regulierement, donc m y connecter regulierement, entrer mon pseudo et mon mdp, enregistrer la page, la parser et enfin executer les actions necessaires.
Un vraix BOT, la solution que j ai trouver c'est d'etudier un minimum PYTHON qui fait ça trés bien

#7 Le 12/06/2010, à 00:35

alex2423

Re : Comment aspirer un site en selectionnant ce que l'on veux?

Bonsoir josepe,

J'avais la meme problématique que toi. Je récupérer de manière régulière le programme TV d'europort mais il fallait que je m'authentifie avec mon compte avant.

Wget accepte des options en rapport avec les cookies :
--load-cookies file => permet de charger un cookies au format texte.
J'avais essayé de me faire :
1/ me connecter au site d'Eurosport avec Firefox
2/les cookies étant généré en sqlite par Firefox, je les ai convertis au format texte à l'aide d'un addon Firefox
3/et enfin j'ai essayé de charger le fichier avec l'option --load-cookies

Malheureusement, cela n'a pas fonctionné pour moi. J'ai donc laché l'affaire parce que je ne trouvé plus de piste.

Sinon il est toujours possible d'envoyer le cookies de cette manière :
wget --no-cookies --header "Cookie: <name>=<value>"

A ma grande surprise le man de mon wget est en anglais mais les mots sont très simple, très facile à comprendre :

--load-cookies file
           Load cookies from file before the first HTTP retrieval.  file is a
           textual file in the format originally used by Netscape's
           cookies.txt file.

          You will typically use this option when mirroring sites that
           require that you be logged in to access some or all of their
           content.  The login process typically works by the web server
           issuing an HTTP cookie upon receiving and verifying your
           credentials.  The cookie is then resent by the browser when
           accessing that part of the site, and so proves your identity.

           Mirroring such a site requires Wget to send the same cookies your
           browser sends when communicating with the site.  This is achieved
           by --load-cookies---simply point Wget to the location of the
           cookies.txt file, and it will send the same cookies your browser
           would send in the same situation.  Different browsers keep textual
           cookie files in different locations:

           @asis<Netscape 4.x.>
               The cookies are in ~/.netscape/cookies.txt.

           @asis<Mozilla and Netscape 6.x.>
               Mozilla's cookie file is also named cookies.txt, located
               somewhere under ~/.mozilla, in the directory of your profile.
               The full path usually ends up looking somewhat like
               ~/.mozilla/default/some-weird-string/cookies.txt.

           @asis<Internet Explorer.>
               You can produce a cookie file Wget can use by using the File
               menu, Import and Export, Export Cookies.  This has been tested
               with Internet Explorer 5; it is not guaranteed to work with
               earlier versions.

           @asis<Other browsers.>
               If you are using a different browser to create your cookies,
               --load-cookies will only work if you can locate or produce a
               cookie file in the Netscape format that Wget expects.

           If you cannot use --load-cookies, there might still be an
           alternative.  If your browser supports a "cookie manager", you can
           use it to view the cookies used when accessing the site you're
           mirroring.  Write down the name and value of the cookie, and
           manually instruct Wget to send those cookies, bypassing the
           "official" cookie support:

                   wget --no-cookies --header "Cookie: <name>=<value>"

Hors ligne

#8 Le 12/06/2010, à 14:12

josepe36

Re : Comment aspirer un site en selectionnant ce que l'on veux?

bonjour alex 2423

en fait y a plusieurs façon de faire, cela fait longtemp que j ai arreté de jouer avec ça
si ça t'interesse je peux te filer le code que j avais devellopper si cela peut t inspirerer wink

#9 Le 14/06/2010, à 03:36

ElricX

Re : Comment aspirer un site en selectionnant ce que l'on veux?

Salut, il y a un flux rss sur le site sa peut aider? Pas besoin d'authentification non plus sur le site.

je peux donner l'url par MP également si c'est pour aider..

Donc si je pourrais "surveiller" le flux rss pour qu'il capture un nouvel éléments je serais comblé. Cependant je ne veux pas qu'il "attrape tout" car chaque semaine  le même épisode est rendu disponible en version haute qualité et basse qualité. Dans le flux rss l'élément de haute qualité à le mot clé FQ dans le nom et l'autre à BQ pour la basse qualité par exemple.


Amicalement,

Hors ligne

Haut de page ↑