#1 Le 25/10/2012, à 05:50
- Watael
[résolu] wget télécharge dans un format compressé
Salut,
Je télécharge régulièrement une page du forum ubuntu-fr.org (c'est à dire le présent forum)
via un script appelant un `wget' tout bête
Je vous met la commande en mode debug:
wget -a $tmp/wget.log -O- "http://forum.ubuntu-fr.org/viewforum.php?id=78" | tee ubuntu-fr.html | sed '...'
normalement, je n'utilise pas `tee'.
Souvent (environ 7/10), la page téléchargée n'est pas lisible : `file' la présente comme "gzip compressed data, from Unix".
J'ai donc essayé `gunzip' sur le fichier, mais il me répond : "gzip: ubuntu-fr.html: unknown suffix -- ignored".
La même commande fonctionne parfaitement avec des forums d'autres sites, sans jamais la moindre erreur de ce type.
Que puis-je vous dire de plus ?
Avez-vous une solution, ou une explication ?
Dernière modification par Watael (Le 26/10/2012, à 06:04)
Connected \o/
Welcome to sHell. · eval is evil.
Hors ligne
#2 Le 25/10/2012, à 06:49
- nesthib
Re : [résolu] wget télécharge dans un format compressé
C'est très étrange, chez moi la page est affichée par défaut en texte mais pas après que je force le type de données… Je suppose que le serveur doit garder la dernière utilisation en mémoire, peut être par IP. Ainsi lorsque tu utilises ton navigateur tu dois changer cette option.
Tu peux forcer le type de données en ajoutant des entêtes :
wget --header="Accept-Encoding: gzip" -O- "http://forum.ubuntu-fr.org/viewforum.php?id=78" | gunzip
wget --header="Accept: text/html" -O- "http://forum.ubuntu-fr.org/viewforum.php?id=78"
Autre solution, tu peux utiliser curl qui décode automatiquement les flux compressés.
Je ne sais pas ce que tu cherches à faire mais pense que tu as accès au fil RSS du forum qui est beaucoup plus facile à analyser
GUL Bordeaux : Giroll – Services libres : TdCT.org
Hide in your shell, scripts & astuces : applications dans un tunnel – smart wget – trouver des pdf – install. auto de paquets – sauvegarde auto – ♥ awk
⃛ɹǝsn xnuᴉꞁ uʍop-ǝpᴉsdn
Hors ligne
#3 Le 25/10/2012, à 07:30
- Watael
Re : [résolu] wget télécharge dans un format compressé
ok, je vais laisser tourner dans la journée avec le deuxième header (text/html) (vu que les autres sites n'ont pas ce comportement).
Si ça marche comme ça, je passerai en résolu.
Sinon...
en tous cas, merci beaucoup, et bonne journée.
PS: pour le RSS, c'est juste que j'avais commencé avec un site qui ne propose pas de RSS, ou que je ne l'ai pas trouvé, ou qu'il ne me plaisait pas, et j'ai continué sur ma lancée.
Si ça ne fonctionne pas avec l'ajout de l'en-tête, alors, c'est probablement ce que je retiendrai.
ps2: pour ceux que ça intéresse : HTTP/1.1: 14 - Header Field Definitions
Dernière modification par Watael (Le 25/10/2012, à 07:43)
Connected \o/
Welcome to sHell. · eval is evil.
Hors ligne
#4 Le 26/10/2012, à 06:03
- Watael
Re : [résolu] wget télécharge dans un format compressé
Ben, non
Finalement, ça n'aura pas tenu très longtemps. avant midi ça recommençait à télécharger des fichiers compressés aléatoirement.
Je vais donc opter pour le téléchargement systématique au format gzip.
encore merci.
Connected \o/
Welcome to sHell. · eval is evil.
Hors ligne