Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 25/10/2012, à 05:50

Watael

[résolu] wget télécharge dans un format compressé

Salut,

Je télécharge régulièrement une page du forum ubuntu-fr.org (c'est à dire le présent forum)
via un script appelant un `wget' tout bête
Je vous met la commande en mode debug:

wget -a $tmp/wget.log -O- "http://forum.ubuntu-fr.org/viewforum.php?id=78" | tee ubuntu-fr.html | sed '...'

normalement, je n'utilise pas `tee'.

Souvent (environ 7/10), la page téléchargée n'est pas lisible : `file' la présente comme "gzip compressed data, from Unix".
J'ai donc essayé `gunzip' sur le fichier, mais il me répond : "gzip: ubuntu-fr.html: unknown suffix -- ignored".

La même commande fonctionne parfaitement avec des forums d'autres sites, sans jamais la moindre erreur de ce type.

Que puis-je vous dire de plus ?

Avez-vous une solution, ou une explication ?

Dernière modification par Watael (Le 26/10/2012, à 06:04)


Connected \o/
Welcome to sHell. · eval is evil.

Hors ligne

#2 Le 25/10/2012, à 06:49

nesthib

Re : [résolu] wget télécharge dans un format compressé

C'est très étrange, chez moi la page est affichée par défaut en texte mais pas après que je force le type de données… Je suppose que le serveur doit garder la dernière utilisation en mémoire, peut être par IP. Ainsi lorsque tu utilises ton navigateur tu dois changer cette option.
Tu peux forcer le type de données en ajoutant des entêtes :

wget --header="Accept-Encoding: gzip" -O- "http://forum.ubuntu-fr.org/viewforum.php?id=78" | gunzip
wget --header="Accept: text/html" -O- "http://forum.ubuntu-fr.org/viewforum.php?id=78"

Autre solution, tu peux utiliser curl qui décode automatiquement les flux compressés.

Je ne sais pas ce que tu cherches à faire mais pense que tu as accès au fil RSS du forum qui est beaucoup plus facile à analyser wink


GUL Bordeaux : GirollServices libres : TdCT.org
Hide in your shell, scripts & astuces :  applications dans un tunnelsmart wgettrouver des pdfinstall. auto de paquetssauvegarde auto♥ awk
  ⃛ɹǝsn xnuᴉꞁ uʍop-ǝpᴉsdn

Hors ligne

#3 Le 25/10/2012, à 07:30

Watael

Re : [résolu] wget télécharge dans un format compressé

ok, je vais laisser tourner dans la journée avec le deuxième header (text/html) (vu que les autres sites n'ont pas ce comportement).
Si ça marche comme ça, je passerai en résolu.
Sinon...

en tous cas, merci beaucoup, et bonne journée.

PS: pour le RSS, c'est juste que j'avais commencé avec un site qui ne propose pas de RSS, ou que je ne l'ai pas trouvé, ou qu'il ne me plaisait pas, et j'ai continué sur ma lancée.
Si ça ne fonctionne pas avec l'ajout de l'en-tête, alors, c'est probablement ce que je retiendrai.

ps2: pour ceux que ça intéresse : HTTP/1.1: 14 - Header Field Definitions

Dernière modification par Watael (Le 25/10/2012, à 07:43)


Connected \o/
Welcome to sHell. · eval is evil.

Hors ligne

#4 Le 26/10/2012, à 06:03

Watael

Re : [résolu] wget télécharge dans un format compressé

Ben, non sad
Finalement, ça n'aura pas tenu très longtemps. avant midi ça recommençait à télécharger des fichiers compressés aléatoirement.

Je vais donc opter pour le téléchargement systématique au format gzip.

encore merci.


Connected \o/
Welcome to sHell. · eval is evil.

Hors ligne