Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 02/10/2016, à 11:49

moko138

[Résolu] Plantage système inexpliqué

EDIT : La solution est simple :
Il faut remonter le swappiness au-dessus de zéro.
                FIN d'édit.

Bonjour,
Voici la configuration :

lsb_release -d; printenv GDMSESSION ; uname -mr; free -h
Description:	Ubuntu 14.04.5 LTS
Lubuntu
3.13.0-96-generic i686

             total       used       free     shared    buffers     cached
Mem:          1,5G       1,2G       297M       102M        56M       529M
-/+ tampons/cache:       614M       883M
Partition d'échange:       2,1G         0B       2,1G

AJOUT : vieux notebook,
CPU Atom N270

lspci |grep VGA
(...) Intel (...) Mobile 945GSE Express Integrated Graphics Controller (rev 03)

De mémoire, cette carte graphique dispose maximum de 256 Mo de ram, prise sur la ram de la carte mère.
                            FIN d'ajout

Ma Lubuntu 14.04 a planté à 9h07, (à l'ouverture d'un modeste JPG de 1,4 Mio, qui a mis plusieurs dizaines de secondes à s'afficher. Puis la radio dans vlc s'est tue). Après avoir patienté et tenté en vain d'afficher le terminal déjà ouvert, j'ai dû recourir aux touches magiques pour redémarrer.

Je cherche la cause du plantage.

Mais dans syslog et kern.log, je ne vois rien entre 7h10 et 9h10... apparemment :

cat /var/log/syslog | tail -n 500 | head -n 12
(...)
Oct  2 07:10:42 mon-pc dbus[1332]: [system] Successfully activated service 'org.freedesktop.nm_dispatcher'
Oct  2 07:10:43 mon-pc ntpd[1552]: ntpd exiting on signal 15
Oct  2 09:10:53 mon-pc ntpdate[2076]: step time server ttt.ttt.ttt.ttt offset 7199.754843 sec

À moins que... il y a pile deux heures entre  ces deux lignes, et ntpdate était actif avant-après :
ce serait l'heure GMT qui passe à l'heure légale ? Mais oui !
J'ai fait connaissance avec un piège du diagnostic et je reprends.

syslog :
Il faut en réalité remonter beaucoup plus haut (près de 1400 lignes plus haut) pour trouver la trace des touches magiques, à 9h09:22 :

cat /var/log/syslog | tail -n 2010 | head -n 22
Oct  2 09:06:06 mon-pc NetworkManager[1411]: <info> (wlan0): DHCPv4 state changed renew -> renew
Oct  2 09:06:06 mon-pc NetworkManager[1411]: <info>   address xxx.xxx.xxx.xxx
Oct  2 09:06:06 mon-pc NetworkManager[1411]: <info>   prefix 13 (yyy.yyy.yyy.yyy)
Oct  2 09:06:06 mon-pc NetworkManager[1411]: <info>   gateway yyy.yyy.yyy.yyy
Oct  2 09:06:06 mon-pc NetworkManager[1411]: <info>   nameserver '212.27.40.241'
Oct  2 09:06:06 mon-pc NetworkManager[1411]: <info>   nameserver '212.27.40.240'
Oct  2 09:06:07 mon-pc dbus[549]: [system] Activating service name='org.freedesktop.nm_dispatcher' (using servicehelper)
Oct  2 09:06:21 mon-pc dbus[549]: [system] Successfully activated service 'org.freedesktop.nm_dispatcher'
Oct  2 09:06:23 mon-pc NetworkManager[1411]: <warn> Dispatcher failed: (4) Did not receive a reply. Possible causes include: the remote application did not send a reply, the message bus security policy blocked the reply, the reply timeout expired, or the network connection was broken.
Oct  2 09:07:13 mon-pc dhclient: DHCPREQUEST of xxx.xxx.xxx.xxx on wlan0 to yyy.yyy.yyy.yyy port 67 (xid=0x3d4e4533)
Oct  2 09:07:22 mon-pc dhclient: DHCPACK of xxx.xxx.xxx.xxx from yyy.yyy.yyy.yyy
Oct  2 09:09:10 mon-pc dhclient: bound to xxx.xxx.xxx.xxx -- renewal in -15 seconds.
Oct  2 09:09:22 mon-pc kernel: [598720.047745] SysRq : This sysrq operation is disabled.
Oct  2 09:09:24 mon-pc kernel: [598722.207778] SysRq : This sysrq operation is disabled.
Oct  2 09:09:27 mon-pc kernel: [598724.615803] SysRq : This sysrq operation is disabled.
Oct  2 09:09:28 mon-pc kernel: [598726.359820] SysRq : Emergency Sync
Oct  2 09:09:29 mon-pc kernel: [598728.093558] Emergency Sync complete
Oct  2 07:10:32 mon-pc rsyslogd: [origin software="rsyslogd" swVersion="7.4.4" x-pid="1456" x-info="http://www.rsyslog.com"] start
(...)

Mais je ne vois pas d'indice de la cause du plantage.
J'imagine que

NetworkManager[1411]: <warn> Dispatcher failed: (4) Did not receive a reply. Possible causes include: the remote application did not send a reply, the message bus security policy blocked the reply, the reply timeout expired, or the network connection was broken.

n'est pas de nature à planter tout le système.
  Est-ce que je me trompe ?


Passons à kern.log :

cat /var/log/kern.log | tail -n 930 | head -n 20
Oct  2 07:35:08 mon-pc kernel: [593066.731259] type=1400 audit(1475386508.442:69): apparmor="STATUS" operation="profile_replace" profile="unconfined" name="/usr/lib/cups/backend/cups-pdf" pid=1911 comm="apparmor_parser"
Oct  2 07:35:08 mon-pc kernel: [593066.731285] type=1400 audit(1475386508.442:70): apparmor="STATUS" operation="profile_replace" profile="unconfined" name="/usr/sbin/cupsd" pid=1911 comm="apparmor_parser"
Oct  2 07:35:08 mon-pc kernel: [593066.733022] type=1400 audit(1475386508.446:71): apparmor="STATUS" operation="profile_replace" profile="unconfined" name="/usr/sbin/cupsd" pid=1911 comm="apparmor_parser"
Oct  2 08:06:43 mon-pc kernel: [594961.863780] ieee80211 phy17: rt2800usb_txdone: Warning - Data pending for entry 15 in queue 2
Oct  2 08:06:43 mon-pc kernel: [594962.012738] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 1 in queue 2
Oct  2 08:06:43 mon-pc kernel: [594962.012801] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 1 in queue 2
Oct  2 08:06:43 mon-pc kernel: [594962.012812] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 1 in queue 2
Oct  2 08:11:24 mon-pc kernel: [595243.026876] ieee80211 phy17: rt2800usb_txdone: Warning - Data pending for entry 4 in queue 2
Oct  2 08:11:24 mon-pc kernel: [595243.177839] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 7 in queue 2
Oct  2 08:11:24 mon-pc kernel: [595243.177969] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 7 in queue 2
Oct  2 08:11:24 mon-pc kernel: [595243.177996] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 7 in queue 2
Oct  2 08:12:35 mon-pc kernel: [595313.999672] ieee80211 phy17: rt2800usb_txdone: Warning - Data pending for entry 4 in queue 2
Oct  2 08:12:35 mon-pc kernel: [595314.149614] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 6 in queue 2
Oct  2 08:12:35 mon-pc kernel: [595314.149750] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 6 in queue 2
Oct  2 08:12:35 mon-pc kernel: [595314.149777] ieee80211 phy17: rt2800usb_entry_txstatus_timeout: Warning - TX status timeout for entry 6 in queue 2
Oct  2 09:09:22 mon-pc kernel: [598720.047745] SysRq : This sysrq operation is disabled.
Oct  2 09:09:24 mon-pc kernel: [598722.207778] SysRq : This sysrq operation is disabled.
Oct  2 09:09:27 mon-pc kernel: [598724.615803] SysRq : This sysrq operation is disabled.
Oct  2 09:09:28 mon-pc kernel: [598726.359820] SysRq : Emergency Sync
Oct  2 09:09:29 mon-pc kernel: [598728.093558] Emergency Sync complete

Rien entre 8h12 et le "This sysrq operation is disabled." de 9h09.
Puisque kern.log ne m'éclaire pas, passons à dmesg.0
  - -

dmesg.0 :

cat /var/log/dmesg.0 | tail -n 20

il s'arrête à la 26ème seconde sad  :

[   25.366376] IPv6: ADDRCONF(NETDEV_UP): wlan0: link is not ready

  - -

Smartctl :
En désespoir de cause je me suis demandé si une erreur de mon vieux disque... alors j'ai lancé smartctl. Mais la dernière erreur remonte à

 ATA Error Count: 15 (device log contains only the most recent five errors)
(...)
Error 15 occurred at disk power-on lifetime: 2716 hours (113 days + 4 hours)

alors que le disque atteint

   9 Power_On_Hours   (...)      19951

  - -

Vous l'avez compris, je sèche !
Soit j'ai mal lu syslog, kern.log, dmesg.0 et smartctl, soit il faut chercher ailleurs.
Toutes les contributions seront bienvenues !
Merci d'avance !  smile

Dernière modification par moko138 (Le 31/10/2016, à 06:50)


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#2 Le 02/10/2016, à 12:12

tarkan99

Re : [Résolu] Plantage système inexpliqué

Salut Moko!

Houla, Moko qui demande de l'aide, c'est pas courant. Ta machine, c'est un fixe ou un portable ?

as-tu pensé à un problème de surchauffe ?

Ton plantage fait pensé à un pb matériel : pas de messages d'erreur particulier, plantage soudain.


xubuntu 22.04.1 sur machine assemblée base de Core i5 9400

Hors ligne

#3 Le 02/10/2016, à 12:20

Compte anonymisé

Re : [Résolu] Plantage système inexpliqué

Vu les données, je dirais que VLC ou NetworkManager sont les coupables. Ça a l'air de ressembler à un simple calcul que ton PC n'a pas réussi à prendre en charge.
Ce qui pour moi est intéressant dans l'affaire est de voir la consommation proce / mem (top) en parallèle avec la température transmise en temps réel par les capteurs (watch -n 3 sensors)

Une fois, j'ai eu VLC qui m'a fait des misères et j'ai bonnement attendu que le système s'en rende compte pour me proposer de l'arrêter, mais le temps d'attente est de l'ordre de la demi-minute.
Confirmation par la température du proce , à 72°C .

Dernière modification par Compte anonymisé (Le 02/10/2016, à 12:21)

#4 Le 02/10/2016, à 12:27

moko138

Re : [Résolu] Plantage système inexpliqué

À ma connaissance, une surchauffe produit un message genre "thermal error" dans syslog suivi d'une extinction brutale.
Là j'ai eu un très fort ralentissement pendant une minute puis un gel apparemment complet pendant une autre minute.

Mais peut-être que toutes les surchauffes ne produisent pas de message (CPU, HD, carte graphique) ?
Ce matin, je sais que la température de mon HD était contrôlée.
Mais comme le problème a coincidé avec l'ouverture d'un (troisième) JPG, (les 2 autres étaient ouverts depuis des heures), oui la piste d'une surchauffe de la carte graphique (très modeste, c'est celle d'un notebook conçu pour win XP) est à prendre en considération,
Merci !

(Mais tout de même, il n'y avait même pas de video ouverte ! Bizarre, tout ça...)

P.S. :  il n'y a que deux jpg dans le répertoire, donc on peut exclure la fabrication de nombreuses vignettes comme cause.

Dernière modification par moko138 (Le 02/10/2016, à 12:32)


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#5 Le 02/10/2016, à 12:45

Compte supprimé

Re : [Résolu] Plantage système inexpliqué

Salut moko138,
J'affiche toujours dans ma barre d'outils températures CPU, utilisation CPU/mémoire RAM/réseau/swap/charge/et disque dur et l'heure avec les secondes…
ce qui permet de vérifier en cas de ralentissement ou de gel, ce qui se passe.

Il y a déjà eu des plantages avec des visionneurs d'images qui "fuient en mémoire". Des bogues.

Parfois, les fichiers JPG sont abîmés, et si le visionneur d'image ne vérifie pas la structure du JPG, ça peut planter.

Dernière modification par Compte supprimé (Le 02/10/2016, à 13:10)

#6 Le 02/10/2016, à 13:11

moko138

Re : [Résolu] Plantage système inexpliqué

jojo81 a écrit :

Vu les données, je dirais que VLC ou NetworkManager sont les coupables. Ça a l'air de ressembler à un simple calcul que ton PC n'a pas réussi à prendre en charge.
Ce qui pour moi est intéressant dans l'affaire est de voir la consommation proce / mem (top) en parallèle avec la température transmise en temps réel par les capteurs (watch -n 3 sensors)

Une fois, j'ai eu VLC qui m'a fait des misères et j'ai bonnement attendu que le système s'en rende compte pour me proposer de l'arrêter, mais le temps d'attente est de l'ordre de la demi-minute.
Confirmation par la température du proce , à 72°C .

jojo81, je laisse toujours top -d 4 tourner, du démarrage à l'extinction.
Là, j'ai juste pu, avec Alt tab, demander le retour à la fenêtre du terminal,  mais elle n'est pas revenue sur le dessus.

La température du CPU :
Quand Vlc s'emballe (genre occupation d'un CPU à 70-75%), ce qui ne m'arrive que dans Xubuntu 12.04 (donc pas ce matin), j'entends d'abord le ventilateur accélérer en conséquence.
Je te garantis que ça ne s'est pas produit ce matin.

La température du disque :
C'est la première chose que j'ai regardée après redémarrage. Elle était montée à 48°C.
Donc 3'30" avant, au début du problème, quand hdparm -B 247 était encore actif, elle était plus basse.

watch -n 3 sensors
...ne me laisse pas le temps de copier le retour ; voici donc

watch -n 13 sensors
Toutes les 13,0s: sensors                               Sun Oct  2 13:03:08 2016

acpitz-virtual-0
Adapter: Virtual device
temp1:        +42.0°C  (crit = +95.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Core 0:       +42.0°C  (crit = +90.0°C)

Laquelle des 2 valeurs correspond au CPU ?
Laquelle à la CG ?
  - -

J'ai rouvert sans problème les deux jpg du répertoire.


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#7 Le 02/10/2016, à 13:20

Compte supprimé

Re : [Résolu] Plantage système inexpliqué

Et ça peut être un neutron qui percute un noyau atomique. La probabilité est très faible, mais ça peut faire planter la micro-informatique quand ça arrive… Nous sommes bombardés en permanence par les neutrons du soleil, même la nuit, sans conséquence à notre échelle.
(si je me souviens parfaitement de ce que m'avait dit mon professeur d'électronique à l'université BORDEAUX 1, faisant partie de l'équipe fiabilité à l'IXL, devenue IMS)

#8 Le 02/10/2016, à 15:15

Compte anonymisé

Re : [Résolu] Plantage système inexpliqué

moko138 a écrit :

watch -n 3 sensors
...ne me laisse pas le temps de copier le retour ; voici donc

Je ne te demandais pas explicitement un retour de watch -n 3 sensors mais de me dire si les températures te paraissaient anormales.

moko138 a écrit :

Laquelle des 2 valeurs correspond au CPU ?

coretemp-isa-0000
La ligne du dessus, c'est soit l'alimentation de l'écran, soit la carte graphique.

moko138 a écrit :

C'est la première chose que j'ai regardée après redémarrage. Elle [température du disque] était montée à 48°C.

Ah oui, jamais je n'ai eu des températures à ce niveau.
Pour moi, c'est soit une mauvaise alimentation du disque, soit que tu as fait une grosse opération de lecture/écriture , mais ça me parait gros à accepter.

F50 m'avait donné un truc pour surveiller les erreurs en temps réel : journalctl -f , mais vu que tu as redémarré, les données ont été effacées. Il y a bien journalctl -b, mais c'est très long à décortiquer.

#9 Le 02/10/2016, à 15:59

moko138

Re : [Résolu] Plantage système inexpliqué

jojo81 a écrit :

Ah oui, jamais je n'ai eu des températures à ce niveau.
Pour moi, c'est soit une mauvaise alimentation du disque, soit que tu as fait une grosse opération de lecture/écriture , mais ça me parait gros à accepter.

Si si, sur ce WD scorpio blue, dès que le notebook gèle, hdparm est paralysé et la température peut monter en quelques minutes à 54°C.
J'ai passé l'été à le maintenir à 47°C, C'est un compromis entre températures et nombre de parcages horaires, comme je l'ai expliqué sur le fil des lève-tôt et sur celui des Caviar Green. Ce scorpio blue tend à parquer excessivement, il a dépassé les 1,5 millions de parcages.
L'hiver : entre 37 et 40°, en remontant hdparm -B à 254.
Présentement :

sudo hddtemp /dev/sda
/dev/sda: WDC WD1600BEVT-22ZCT0: 44°C

Parfaitement cohérent avec une température à 48 après 3"30 de gel.
  Donc lil me semble que la cause du gel n'est pas à chercher de ce côté-là.
  - -

journalctl, sûrement dans 16.04, mais là c'est une 14.04 / 3.13. (cf. #1)
  - -

coretemp-isa-0000 = CPU
Merci !


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#10 Le 02/10/2016, à 16:18

moko138

Re : [Résolu] Plantage système inexpliqué

L_d_v_c@ a écrit :

J'affiche toujours dans ma barre d'outils températures CPU, utilisation CPU/mémoire RAM/réseau/swap/charge/et disque dur et l'heure avec les secondes…
ce qui permet de vérifier en cas de ralentissement ou de gel, ce qui se passe.

C'est un notebook à 1,5 Gio de ram,
Regarde combien de ram absorbent ces appliquettes...

Parfois, les fichiers JPG sont abîmés, et si le visionneur d'image ne vérifie pas la structure du JPG, ça peut planter.

JPG sains.

Il y a déjà eu des plantages avec des visionneurs d'images qui "fuient en mémoire". Des bogues.

Des fuites de mémoire sur
eog  3.10.2-0ubuntu5.2    i386    Eye of GNOME graphics viewer  de la 14.04 LTS,
tu crois ? En as-tu entendu parler ?

Comment cela apparaît-il dans top (si cela y est visible) ?
  - -

Les deux autres JPG affichés l'étaient depuis la veille au soir : est-ce que ça a pu jouer ?
Voyez-vous dans les logs quelque-chose qui m'a échappé ?


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#11 Le 31/10/2016, à 04:57

moko138

Re : [Résolu] Plantage système inexpliqué

Explication et remède trouvés :
Apparemment, Lubuntu 14.04 ne supporte pas une surcharge forte et soudaine de travail quand le swappiness est à zéro. Il devrait swapper, mais il y a trop à swapper d'un coup.

J'ai remonté le swappiness (à 30, provisoirement) et depuis le pc n'a plus gelé.

D'ailleurs je l'avais oublié mais sur ma Xubuntu 12.04 (dont je croyais le swappiness à zéro), j'avais aussi remonté le swappiness il y a 18 mois (je l'avais remonté à deux).


Il me reste un test à faire sur certaine page ouèbe riche en diaporamas, et je passerai en Résolu.

= = =

Test fait
Page riche en diaporamas :
balbucam.fr/index.php/fr/2016/10/02/trois-jours-circaete/

Page riche en photos :
loire-et-biodiversite.com/?utm_source=_ob_email&utm_medium=_ob_notification&utm_campaign=_ob_pushmail

  J'ai affiché ces deux pages dans icecat et dans firefox,
autorisé temporairement les javascripts de
balbucam.fr,  de loire-et-biodiversite.com  et de img.over-blog-kiwi.com
puis rafraîchi ces pages.

L'occupation de la swap augmentait alors à vue d'oeil,
et la charge CPU était stable à 100% pour chaque navigateur.

Après la fin d'autorisarion temporaire des javascripts "lourds", on voit encore le swap à 0,5 Gio (contre 0,2 Gio avant le test) :

top - 05:18:47 up 1 day, 10:41, 10 users,  load average: 0,47, 0,70, 0,99
(...)
KiB Mem:   1534052 total,  1214308 used,   319744 free,     3796 buffers
KiB Swap:  2152672 total,   577520 used,  1575152 free.   370864 cached Mem

  PID UTIL.     PR  NI    VIRT    RES    SHR S  %CPU %MEM    TEMPS+ COM.                               
 4002 moi       20   0 1041640 378952  27520 S   0,0 24,7  26:08.90 firefox                            
 2812 moi       20   0 1148620 292796  29420 S   2,7 19,1 296:19.73 icecat-bin                         
30537 moi       20   0 2132332 158668 154744 S   0,0 10,3  54:20.53 mp3DirectCut.ex                    
 1818 root      20   0  703712 133328 114688 S   6,5  8,7 102:27.38 Xorg                               
17830 moi       20   0  435112  26568   8080 S   0,0  1,7 127:52.17 vlc                                
 2660 moi       20   0  455724  19080   6124 S   0,1  1,2   8:11.71 geany                              
 8061 moi       20   0  320068  17220   5732 S   0,0  1,1   0:06.28 eog                                
 2273 moi       20   0  311316  12152   4260 S   0,0  0,8   8:47.56 pcmanfm                            
23819 moi       20   0  495452  11544   2132 S   0,0  0,8   5:15.99 gimp                               
 2565 moi       20   0  271172   8712   4732 S   4,9  0,6   4:57.80 x-terminal-emul                    
 2270 moi       20   0  297552   7684   4656 S   0,3  0,5  11:36.37 lxpanel

Le pc n'a plus gelé.  big_smile

Ai ajouté une mise en garde dans swap.

Dernière modification par moko138 (Le 31/10/2016, à 07:22)


%NOINDEX%
Un utilitaire précieux : ncdu
Photo, mini-tutoriel :  À la découverte de dcraw

Hors ligne

#12 Le 31/10/2016, à 09:06

Compte supprimé

Re : [Résolu] Plantage système inexpliqué

Bien moko138, je ne sais plus où sur le forum j'écrivais que les swapinness trop bas étaient trop "brutaux", un terme mal utilisé pour essayer d'expliquer le phénomène de vidage mémoire, que tu décris mieux juste au-dessus, accaparait le CPU.