Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 19/09/2012, à 04:02

Sephiria

[wget] récupérer des adresses avec regex

Bonjour chers amis,
j'ai une petite question pour vous concernant wget. Je vous résume l'histoire. Il y a un site (qui utilise l'URL rewriting bien sûr) dont je voudrais récupérer un gros tutoriel multi-pages. Toutes les pages du tutoriel obéissent à une réécriture reconnaissable du genre : http://monsite.com/tutoriel-12-XXX.html avec XXX un nom variable selon la page du tutoriel. Je possède l'adresse de la page sommaire (du genre http://monsite.com/tutoriel-12-sommaire.html) du tutoriel qui contient les liens vers toutes les autres pages du tutoriel mais aussi (et malheureusement) beaucoup de liens menant vers d'autres tutoriels dont je ne veux pas.
Ici le problème se pose car je voudrais donner à wget la page http://monsite.com/tutoriel-12-sommaire.html et qu'il récupère toutes les pages HTML référencées dans la page sommaire (avec la notation étoilée) : http://monsite.com/tutoriel-12-*.html ainsi que tous les éléments dont elles ont besoin (feuilles CSS, images, etc.).
Utiliser le mode récursif n'est pas suffisant car tous les liens relatifs sont suivis par wget (et y'en a un bon paquet qui n'a rien à voir avec le tutoriel).
J'ai regardé un peu les options de wget mais pas moyen de trouver une option en rapport à première vue.

Pouvez-vous m'aiguiller concernant soit les options de wget que je n'ai pas vu, soit un autre utilitaire pour faire ça ?

PS : j'ai aussi essayé WebHTTrack mais pareil, je n'ai pas trouvé de réglages qui permettaient de faire ça.

Merci beaucoup pour votre aide. smile

Hors ligne