Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 29/12/2015, à 14:15

NY152

[Résolu] Récupérer les lien d'une page

Bonjour,

J'utilise un petit serveur web perso en intranet et sur ce dernier j'ai pas mal de lien (cliquables ou non)

J'aurais aimé savoir si l'on pouvais récupérer une liste de ces lien par un script bash ?

D'avance, merci ^^

Dernière modification par NY152 (Le 05/01/2016, à 16:25)

Hors ligne

#2 Le 29/12/2015, à 21:47

Hizoka

Re : [Résolu] Récupérer les lien d'une page

oui, mais il faudrait voir à uoi ressemble le fichier pour t'aider à recuperer les bonnes infos.


KDE Neon 64bits
Tous mes softs (MKVExtractorQt, HizoSelect, HizoProgress, Qtesseract, Keneric, Services menus...) sont sur github

Hors ligne

#3 Le 04/01/2016, à 19:18

NY152

Re : [Résolu] Récupérer les lien d'une page

En fait, c'est ça le soucis, je ne peux pas trop le savoir à l'avance puisque la personne peut mettre juste un texte avec une succession de lien ou un truc plus élaboré  avec liens "cliquable". La seule chose qu est certaine c'est que la page PHP génère du html tout à fait classique.

je pensais passer par wget puis par sed mais je n'ai jamais été bon avec sed (oui en faite je pige rien à la construction d'expression régulière avec lol)

Si on ajoute à ça que tout le monde ne mets pas le http:// en début d'url et on a un beau sac de nœuds ^^

Dernière modification par NY152 (Le 04/01/2016, à 20:43)

Hors ligne

#4 Le 04/01/2016, à 21:55

pingouinux

Re : [Résolu] Récupérer les lien d'une page

Bonsoir,
C'est sans doute possible avec sed, mais comme Hizoka, je pense qu'il faudrait quelques exemples.

Hors ligne

#5 Le 05/01/2016, à 00:55

NY152

Re : [Résolu] Récupérer les lien d'une page

Des exemples avec sed, je n'en ai pas. On m'avais filer ça par contre :

wget "http://www.site.com/workurls.php" --quiet -O - | grep -e '(((http|https|ftp|gopher|mailto)[.:][^ >"\t]*|www\.[-a-z0-9.]+)[^ .,;\t>">\):]'

Mais rien ne ressort avec ça ...

Hors ligne

#6 Le 05/01/2016, à 08:21

pingouinux

Re : [Résolu] Récupérer les lien d'une page

Je n'ai pas épluché le grep en détail, mais remplace le déjà par celui-ci :

...| grep -Po '((http|https|ftp|gopher|mailto)[.:][^ >"\t]*|www\.[-a-z0-9.]+)[^ .,;\t>">\):]'

Édité :
Pour récupérer tout ce qui est précédé de href=" :

...| grep -Po '(?<=href=")[^/][^"]+'

Dernière modification par pingouinux (Le 05/01/2016, à 09:50)

Hors ligne

#7 Le 05/01/2016, à 12:51

NY152

Re : [Résolu] Récupérer les lien d'une page

Ca marche ! Merci !!!

Hors ligne