Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 03/02/2015, à 01:35

Lrnv

Un soft pour aspirer un site web ? Pas si simple...

Bonjour !!
Je prépare mes concours de prépa en free-lance, et j'ai trouver une base de données de sujets et de corigés juste magique : Le site en question. Sauf que leur moteur de recherche est juste POURIT. Testez le, vous verrez... Du coup je pensais a l'aspirer avec un truc type httrack.

le problème est que ce site utilise des bouttons et des requettes JS pour arriver jusqu'au fichiers, après avoir remplis un formulaire par deffaut. ( essayer d'en télécharger un, vous verrez ) et httrack ne follow pas les boutons sumbits...

J'ai essayer avec du wget recursif ( -m je crois, je me souviens plus ), meme chose. Uniquement les liens textes...

Enfait j'ai pas besoin de tout, ce dont j'ai besoin sur ce site est très spécifique : l'intégrale des CCP, des annales de L'ISFA, de L'ISUP, de CENTRALE, de X-MINES, et tout cela pour les math only, enfin bon on s'en fout : re-faire la recherche a la con a chaque fois est juste insuportable tongue Comme en plus les noms des pdf sont fait de manière regex, Ce serais beaucoup plus simple de taper

lpr *ma-regex*.pdf 

Vous ne pensez pas ? big_smile

Donc voila, je cherche depuis une demi heure le soft qu'il me faudrais... vous auriez une idée ??

merci d'avence !


Hardware : i7/8goDDR3 en desktop /// Lenovo thinkpad yoga 2 13 en laptop.
OSs : *buntu on desktop, arch / win8 on laptop
Mon Github

Hors ligne

#2 Le 04/02/2015, à 03:47

J5012

Re : Un soft pour aspirer un site web ? Pas si simple...

ton formulaire est principalement constitué de boutons et de listes classiques sans scripts d'obfuscation ...
httrack permet des options de simulation de clic bouton et de choix de listes ... il suffit de lui demander, evidemment l'interface de httrack est aride et pas tres fun ...

tu peux aussi tenter un httrack en specifiant d'ignorer le robot.txt mais ce n'est pas poli ...

Hors ligne

#3 Le 04/02/2015, à 04:40

Lrnv

Re : Un soft pour aspirer un site web ? Pas si simple...

Et bien je n'arrive pas a trouver l'option en question... pourtant j'ai le nez dans le man et les yeux sur google depuis un bon moment. Meme sur leur forum a eux on en parle pas..

Du coup si tu aurais l'aimabilitée de me donner l'option en question ? tongue

J'ai trouver des options qui permettes de follow des liens JS et tout, mais je n'ai rien trouver qui parle de boutons.. Quand au robots.txt j'ai essayer : pas mieux..

Comme d'habitude, je n'arrive meme pas a passer plus loins que la 1ere page..

Dernière modification par Lrnv (Le 04/02/2015, à 04:43)


Hardware : i7/8goDDR3 en desktop /// Lenovo thinkpad yoga 2 13 en laptop.
OSs : *buntu on desktop, arch / win8 on laptop
Mon Github

Hors ligne

#4 Le 06/02/2015, à 06:43

J5012

Re : Un soft pour aspirer un site web ? Pas si simple...

robots et followers sont dans la config du profil de telechargement ...
c'est une option genre "suivre et passer tous parametres au formulaire ..."

Hors ligne

#5 Le 06/02/2015, à 19:45

Lrnv

Re : Un soft pour aspirer un site web ? Pas si simple...

Et bien on ne dois pas avoir la meme version par ce que moi je ne l'ai pas...

La doc n'en parle pas non plus yikes

Si tu pouvais etre plus précis ? Moi dans la config du profil, j'ai en haut plusieurs "onglets" : Liens, Structure, Pour expers, Controle du flux, Limites, Types Mimes, Navigateur internet, Règles de filtrages, Fouineur, Journal/index/cache et Serveur proxy.

Et cette option dont tu parle n'y est absolument pas sad

on a peut-etre pas la meme version ?

$ apt-cache show httrack | grep "Version"
Version: 3.48.19-1

Hardware : i7/8goDDR3 en desktop /// Lenovo thinkpad yoga 2 13 en laptop.
OSs : *buntu on desktop, arch / win8 on laptop
Mon Github

Hors ligne

#6 Le 07/02/2015, à 00:51

J5012

Re : Un soft pour aspirer un site web ? Pas si simple...

les devs ont deplacé l'option dans la ligne de commande,et s'appelle maintenant --catchurl
http://www.httrack.com/html/fcguide.html

The catchurl option is a small application designed to catch difficult pages, like sites protected via formulas. You can see at http://httrack.free.fr/HelpHtml/addurl.html a Windows description of this application. The purpose is to create a temporary proxy, that will catch the user request to a page, and then store this request to continue the mirror. For example,

    1. browse www.foo.com/bar/ until you have a page with a form
    2. fill this form to enter the site BUT do not click "submit"
    3. start the --catchurl application
    4. change your browser proxy settings according to the --catchurl application
    5. click on "submit" on your browser
    6. HTTrack has now captured this click and has stored it
    7. restore your proxy settings
    8. (click back in your browser)

ici un tuto : comment utiliser catchurl avec l'interface graphique de httrack : http://httrack.kauler.com/help/CatchURL_tutorial

Hors ligne