Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 28/08/2011, à 21:46

HacKurx

[résolu] Extraire des liens d'une page html

Bonjour à tous,

J'ai un gros fichier html qui contient énormément de liens dont je souhaiterai extraire dans un fichier texte. Il y a tellement de liens qu'il me serait trop long de recopier tout les champs "href=".
Quelqu'un à t'il une idée pour les extraires par un script?

Merci d'avance.

Note: Je viens d'utiliser cela on dirait que ca va :

cat fichier.html | grep href= | cut -f2 -d\" > lien-brut.txt

Suivi d'un petit :

cat lien-brut.txt | sort | uniq > liens.txt

Dernière modification par HacKurx (Le 28/08/2011, à 22:08)

Hors ligne

#2 Le 29/08/2011, à 00:18

wido

Re : [résolu] Extraire des liens d'une page html

Hors ligne

#3 Le 29/08/2011, à 01:52

HP

Re : [résolu] Extraire des liens d'une page html

magnifique, dès la première ligne le import *, j'adore ! lol


cat /dev/urandom >/dev/null 2>&1 #github

Hors ligne

#4 Le 06/09/2011, à 20:46

Baronsed

Re : [résolu] Extraire des liens d'une page html

HacKurx : ça ne fonctionne que s'il n'y a pas plus d'un lien par ligne. Je me suis demandé comment faire s'il y en avait plusieurs. En fait c'est tous les multiples de deux. Problème : la commande cut ne supporte pas */2  : on ne peut pas écrire

cat extraire | grep href | cut -d \" -f */2

Vous pensez qu'écrire à bug-coreutils est un peu prématuré ou bien ... tongue ?

Hors ligne

#5 Le 08/09/2011, à 16:40

sputnick

Re : [résolu] Extraire des liens d'une page html

mech-dump --links <url>

C'est beau, c'est simple c'est Perl


On ne peut pas mettre d'array dans un string!
https://sputnick.fr/

Hors ligne

#6 Le 21/09/2011, à 21:47

HacKurx

Re : [résolu] Extraire des liens d'une page html

waa pas mal Perl ^^

Hors ligne

#7 Le 21/09/2011, à 21:54

HP

Re : [résolu] Extraire des liens d'une page html

sputnick a écrit :
mech-dump --links <url>

C'est beau, c'est simple c'est Perl

mplayer <mavideo>

C'est beau, c'est simple c'est C ! tongue


cat /dev/urandom >/dev/null 2>&1 #github

Hors ligne

#8 Le 21/09/2011, à 23:05

sputnick

Re : [résolu] Extraire des liens d'une page html

@HP, quel rapport avec la choucroute ?

mplayer sait dumper les forms d'une page web ? Pas que je sache wink

Rappel du titre : Extraire des liens d'une page html smile


On ne peut pas mettre d'array dans un string!
https://sputnick.fr/

Hors ligne

#9 Le 21/09/2011, à 23:54

HP

Re : [résolu] Extraire des liens d'une page html

sputnick a écrit :

@HP, quel rapport avec la choucroute ?
mplayer sait dumper les forms d'une page web ? Pas que je sache wink

pense dans un autre sens… tu devrais finir par comprendre !


cat /dev/urandom >/dev/null 2>&1 #github

Hors ligne

#10 Le 22/09/2011, à 00:11

sputnick

Re : [résolu] Extraire des liens d'une page html

http://sokharis.canalblog.com/images/t-pere_fouras.jpg


On ne peut pas mettre d'array dans un string!
https://sputnick.fr/

Hors ligne

#11 Le 22/09/2011, à 00:14

wido

Re : [résolu] Extraire des liens d'une page html

snes ahh

Hors ligne