[Résolu] Récupérer les lien d'une page

NY152 · Le 29/12/2015, à 14:15

Bonjour,

J'utilise un petit serveur web perso en intranet et sur ce dernier j'ai pas mal de lien (cliquables ou non)

J'aurais aimé savoir si l'on pouvais récupérer une liste de ces lien par un script bash ?

D'avance, merci ^^

Dernière modification par NY152 (Le 05/01/2016, à 16:25)

Hizoka · Le 29/12/2015, à 21:47

oui, mais il faudrait voir à uoi ressemble le fichier pour t'aider à recuperer les bonnes infos.

NY152 · Le 04/01/2016, à 19:18

En fait, c'est ça le soucis, je ne peux pas trop le savoir à l'avance puisque la personne peut mettre juste un texte avec une succession de lien ou un truc plus élaboré avec liens "cliquable". La seule chose qu est certaine c'est que la page PHP génère du html tout à fait classique.

je pensais passer par wget puis par sed mais je n'ai jamais été bon avec sed (oui en faite je pige rien à la construction d'expression régulière avec lol)

Si on ajoute à ça que tout le monde ne mets pas le http:// en début d'url et on a un beau sac de nœuds ^^

Dernière modification par NY152 (Le 04/01/2016, à 20:43)

pingouinux · Le 04/01/2016, à 21:55

Bonsoir,
C'est sans doute possible avec sed, mais comme Hizoka, je pense qu'il faudrait quelques exemples.

NY152 · Le 05/01/2016, à 00:55

Des exemples avec sed, je n'en ai pas. On m'avais filer ça par contre :

wget "http://www.site.com/workurls.php" --quiet -O - | grep -e '(((http|https|ftp|gopher|mailto)[.:][^ >"\t]*|www\.[-a-z0-9.]+)[^ .,;\t>">\):]'

Mais rien ne ressort avec ça ...

pingouinux · Le 05/01/2016, à 08:21

Je n'ai pas épluché le grep en détail, mais remplace le déjà par celui-ci :

...| grep -Po '((http|https|ftp|gopher|mailto)[.:][^ >"\t]*|www\.[-a-z0-9.]+)[^ .,;\t>">\):]'

Édité :
Pour récupérer tout ce qui est précédé de href=" :

...| grep -Po '(?<=href=")[^/][^"]+'

Dernière modification par pingouinux (Le 05/01/2016, à 09:50)

NY152 · Le 05/01/2016, à 12:51

Ca marche ! Merci !!!

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 29/12/2015, à 14:15

[Résolu] Récupérer les lien d'une page

#2 Le 29/12/2015, à 21:47

Re : [Résolu] Récupérer les lien d'une page

#3 Le 04/01/2016, à 19:18

Re : [Résolu] Récupérer les lien d'une page

#4 Le 04/01/2016, à 21:55

Re : [Résolu] Récupérer les lien d'une page

#5 Le 05/01/2016, à 00:55

Re : [Résolu] Récupérer les lien d'une page

#6 Le 05/01/2016, à 08:21

Re : [Résolu] Récupérer les lien d'une page

#7 Le 05/01/2016, à 12:51

Re : [Résolu] Récupérer les lien d'une page

Pied de page des forums