#1 Le 28/08/2011, à 21:46
- HacKurx
[résolu] Extraire des liens d'une page html
Bonjour à tous,
J'ai un gros fichier html qui contient énormément de liens dont je souhaiterai extraire dans un fichier texte. Il y a tellement de liens qu'il me serait trop long de recopier tout les champs "href=".
Quelqu'un à t'il une idée pour les extraires par un script?
Merci d'avance.
Note: Je viens d'utiliser cela on dirait que ca va :
cat fichier.html | grep href= | cut -f2 -d\" > lien-brut.txt
Suivi d'un petit :
cat lien-brut.txt | sort | uniq > liens.txt
Dernière modification par HacKurx (Le 28/08/2011, à 22:08)
Follow Me: http://hackurx.wordpress.com
Hors ligne
#2 Le 29/08/2011, à 00:18
- wido
Re : [résolu] Extraire des liens d'une page html
Bonjour,
Il y a ça aussi:
http://python-seo.blooh.net/2010/12/09/ … e-de-html/
Hors ligne
#3 Le 29/08/2011, à 01:52
- HP
Re : [résolu] Extraire des liens d'une page html
magnifique, dès la première ligne le import *, j'adore !
cat /dev/urandom >/dev/null 2>&1 #github
Hors ligne
#4 Le 06/09/2011, à 20:46
- Baronsed
Re : [résolu] Extraire des liens d'une page html
HacKurx : ça ne fonctionne que s'il n'y a pas plus d'un lien par ligne. Je me suis demandé comment faire s'il y en avait plusieurs. En fait c'est tous les multiples de deux. Problème : la commande cut ne supporte pas */2 : on ne peut pas écrire
cat extraire | grep href | cut -d \" -f */2
Vous pensez qu'écrire à bug-coreutils est un peu prématuré ou bien ... ?
Hors ligne
#5 Le 08/09/2011, à 16:40
- sputnick
Re : [résolu] Extraire des liens d'une page html
mech-dump --links <url>
C'est beau, c'est simple c'est Perl
On ne peut pas mettre d'array dans un string!
https://sputnick.fr/
Hors ligne
#6 Le 21/09/2011, à 21:47
- HacKurx
Re : [résolu] Extraire des liens d'une page html
waa pas mal Perl ^^
Follow Me: http://hackurx.wordpress.com
Hors ligne
#7 Le 21/09/2011, à 21:54
- HP
Re : [résolu] Extraire des liens d'une page html
mech-dump --links <url>
C'est beau, c'est simple c'est Perl
mplayer <mavideo>
C'est beau, c'est simple c'est C !
cat /dev/urandom >/dev/null 2>&1 #github
Hors ligne
#8 Le 21/09/2011, à 23:05
- sputnick
Re : [résolu] Extraire des liens d'une page html
@HP, quel rapport avec la choucroute ?
mplayer sait dumper les forms d'une page web ? Pas que je sache
Rappel du titre : Extraire des liens d'une page html
On ne peut pas mettre d'array dans un string!
https://sputnick.fr/
Hors ligne
#9 Le 21/09/2011, à 23:54
- HP
Re : [résolu] Extraire des liens d'une page html
@HP, quel rapport avec la choucroute ?
mplayer sait dumper les forms d'une page web ? Pas que je sache
pense dans un autre sens… tu devrais finir par comprendre !
cat /dev/urandom >/dev/null 2>&1 #github
Hors ligne
#10 Le 22/09/2011, à 00:11
- sputnick
Re : [résolu] Extraire des liens d'une page html
On ne peut pas mettre d'array dans un string!
https://sputnick.fr/
Hors ligne
#11 Le 22/09/2011, à 00:14
- wido
Hors ligne