Pages : 1
#1 Le 27/08/2021, à 08:57
- OdEa
[Résolu] Serveur qui s'éteint tout seul
Bonjour,
j'ai installé Ubuntu Server 20.04 sur un minipc (ACEPC 4GB RAM/64 GB ROM Intel Atom x5-Z8350) avec disque dur externe branché en USB afin d'y mettre Nextcloud et de me passer le plus possible des services Google.
Malheureusement la machine devient inaccessible de manière aléatoire, elle n'est pas chez moi, du coup je dois demander de la redémarrer 1 fois par mois environ, ce qui est assez pénible.
J'ai ajouté un onduleur en pensant que ca pouvait venir de microcoupures électrique, mais ca ne change rien.
Je penche pour un problème hardware, mais la machine n'a jamais eu de souci lorsqu'elle était chez moi pendant plusieurs mois à tourner 24/7.
La seule différence c'est le disque externe USB qui a changé.
J'ai beau triturer les logs, je n'arrive pas à comprendre ce qu'il se passe, j'ai des soucis kernel lorsque la machine devient inaccessible, mais pas facile à interpréter.
https://pastebin.com/n70gfNNi
Si quelqu'un a une idée, je suis preneur !
Merci !
Dernière modification par bruno (Le 09/12/2021, à 13:34)
Hors ligne
#2 Le 27/08/2021, à 09:31
- Nuliel
Re : [Résolu] Serveur qui s'éteint tout seul
Bonjour,
Déjà bravo pour cette initiative d'utiliser un nextcloud autohébergé à la place de services google!
Tu as un module noyau qui a crashé, visiblement à cause d'un sémaphore jamais lâché visiblement (les sémaphores permettent par exemple de lancer deux tâches qui vont pas s'exécuter en même temps (celui qui arrive en premier est exécuté et prend le sémaphore, le second attend que le premier ait fini, c'est ce qu'on appelle l'exclusion mutuelle))
Tu n'as rien de spécial avant ta première ligne du log que tu donnes?
quels sont les paramètres noyaux passés? En d'autres termes, tu peux donner
cat /proc/cmdline
Tu n'as jamais eu de freeze à cause du processeur? Tu as pu installer grub normalement ou tu as bricolé pour mettre grub en 32 bits?
Dernière modification par Nuliel (Le 27/08/2021, à 09:34)
Hors ligne
#3 Le 27/08/2021, à 11:14
- OdEa
Re : [Résolu] Serveur qui s'éteint tout seul
Merci Nuliel pour ton retour, voici la suite des traces, journée du 19 aout...puis "reveil" le 26 aout :
https://pastebin.com/bL7ahQbY
Je n'ai rien de spécial avant les erreurs kernel, tout a l'air propre avant.
Je me rends compte qu'après les soucis de sémaphore, la machine redémarre, mais ne devient pas pour autant accessible !
Le Syntax Highlighting n'a pas l'air de fonctionner avec pastebin et les traces syslog, voici ci-dessous un condensé de tous les messages/warning/erreurs que je vois en rouge avec vim, lors du reboot après les soucis de sémaphore :
Aug 19 17:10:18 nuage multipathd[662]: path checkers start up
Aug 19 17:10:18 nuage multipathd[662]: mmcblk0boot0: failed to get udev uid: Invalid argument
Aug 19 17:10:18 nuage multipathd[662]: mmcblk0boot0: failed to get unknown uid: Invalid argument
Aug 19 17:10:18 nuage multipathd[662]: mmcblk0boot1: failed to get udev uid: Invalid argument
Aug 19 17:10:18 nuage multipathd[662]: mmcblk0boot1: failed to get unknown uid: Invalid argument
Aug 19 17:10:19 nuage kernel: [ 1.660481] RAS: Correctable Errors collector initialized.
Aug 19 17:10:19 nuage systemd[1]: Condition check resulted in Process error reports when automatic reporting is enabled (file watch) being skipped.
Aug 19 17:10:19 nuage kernel: [ 3.466907] [drm] failed to retrieve link info, disabling eDP
Aug 19 17:10:19 nuage kernel: [ 9.051500] sof-audio-acpi 808622A8:00: error: no matching ASoC machine driver found - aborting probe
Aug 19 17:10:19 nuage kernel: [ 9.051537] sof-audio-acpi 808622A8:00: error: failed to get machine info -19
Aug 19 17:10:19 nuage kernel: [ 9.051552] sof-audio-acpi 808622A8:00: error: sof_probe_work failed err: -19
Aug 19 17:10:19 nuage systemd[1]: Starting GRUB failed boot detection...
Aug 19 17:10:19 nuage thermald[828]: 11 CPUID levels; family:model:stepping 0x6:4c:4 (6:76:4)
Aug 19 17:10:19 nuage thermald[828]: 11 CPUID levels; family:model:stepping 0x6:4c:4 (6:76:4)
Aug 19 17:10:19 nuage thermald[828]: Polling mode is enabled: 4
Aug 19 17:10:19 nuage ntpd[886]: Listen normally on 2 lo 127.0.0.1:123
Aug 19 17:10:19 nuage ntpd[886]: Listen normally on 3 enp1s0 192.168.1.29:123
Aug 19 17:10:19 nuage ntpd[886]: Listen normally on 4 lo [::1]:123
Aug 19 17:10:19 nuage ntpd[886]: Listen normally on 5 enp1s0 [fe80::6a1d:efff:fe23:18e0%2]:123
Aug 19 17:10:19 nuage ntpd[886]: Listening on routing socket on fd #22 for interface updates
Aug 19 17:10:19 nuage ntpd[886]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized
Aug 19 17:10:19 nuage ntpd[886]: kernel reports TIME_ERROR: 0x41: Clock Unsynchronized
Aug 19 17:10:19 nuage systemd[1]: grub-initrd-fallback.service: Succeeded.
Aug 19 17:10:19 nuage systemd[1]: Finished GRUB failed boot detection.
Aug 19 17:10:19 nuage udisksd[829]: failed to load module mdraid: libbd_mdraid.so.2: cannot open shared object file: No such file or directory
Aug 19 17:10:19 nuage systemd[1]: Starting Network Time Service...
Aug 19 17:10:19 nuage udisksd[829]: Failed to load the 'mdraid' libblockdev plugin
Aug 19 17:10:19 nuage udisksd[829]: Error probing device: Error sending ATA command IDENTIFY DEVICE to '/dev/sdb': Unexpected sense data returned:#0120000: 70 00 01 00 00 00 00 0a 00 00 00 00 00 1d 00 00 p...............#0120010: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................#012 (g-io-error-quark, 0)
Aug 19 17:10:20 nuage udisksd[829]: Error probing device: Error sending ATA command IDENTIFY DEVICE to '/dev/sdb': Unexpected sense data returned:#0120000: 70 00 01 00 00 00 00 0a 00 00 00 00 00 1d 00 00 p...............#0120010: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................#012 (g-io-error-quark, 0)
Aug 19 17:10:21 nuage thermald[828]: I/O warning : failed to load external entity "/etc/thermald/thermal-conf.xml"
Aug 19 17:10:21 nuage thermald[828]: error: could not parse file /etc/thermald/thermal-conf.xml
Aug 19 17:10:21 nuage thermald[828]: I/O warning : failed to load external entity "/etc/thermald/thermal-conf.xml"
Aug 19 17:10:21 nuage thermald[828]: error: could not parse file /etc/thermald/thermal-conf.xml
Aug 19 17:10:21 nuage thermald[828]: I/O warning : failed to load external entity "/etc/thermald/thermal-conf.xml"
Aug 19 17:10:21 nuage thermald[828]: error: could not parse file /etc/thermald/thermal-conf.xml
Je n'ai pas souvenir d'avoir galéré avec grub, mais au boot on retrouve des soucis de détection avec grub !
Le système est sur /dev/sdb
et voici le retour de /proc/cmdline :
BOOT_IMAGE=/boot/vmlinuz-5.4.0-81-generic root=UUID=c4cf58cf-a926-4b40-8500-985f1cf38e99 ro
Et voici le "reveil" de la machine le 26, pour une fois elle s'est reveillée toutes seule sans intervention humaine :
Aug 19 17:10:23 nuage systemd[1]: Finished Update UTMP about System Runlevel Changes.
Aug 19 17:10:23 nuage set-cpufreq[803]: Setting powersave scheduler for all CPUs
Aug 19 17:10:23 nuage systemd[1]: ondemand.service: Succeeded.
Aug 19 17:10:24 nuage systemd[1]: dmesg.service: Succeeded.
Aug 19 17:10:24 nuage systemd[1]: Reloading.
Aug 19 17:10:25 nuage cloud-init[1289]: Cloud-init v. 21.2-3-g899bfaa9-0ubuntu2~20.04.1 running 'modules:config' at Thu, 19 Aug 2021 15:10:25 +0000. Up 27.39 seconds.
Aug 19 17:10:26 nuage systemd[1]: Finished Apply the settings specified in cloud-config.
Aug 19 17:10:26 nuage systemd[1]: Starting Execute cloud user/final scripts...
Aug 26 14:14:56 nuage systemd[1]: Starting Online ext4 Metadata Check for All Filesystems...
Aug 26 14:14:56 nuage systemd[1]: Starting Discard unused blocks on filesystems from /etc/fstab...
Aug 26 14:14:56 nuage systemd[1]: Starting Refresh fwupd metadata and update motd...
Aug 26 14:14:56 nuage systemd[1]: Starting Message of the Day...
Aug 26 14:14:56 nuage systemd[1]: Starting Clean php session files...
Aug 26 14:14:56 nuage systemd[1]: Starting Service for snap application certbot.renew...
Aug 26 14:14:56 nuage systemd[1]: Starting Ubuntu Advantage APT and MOTD Messages...
Aug 26 14:14:57 nuage systemd[1]: Starting Rotate log files...
Aug 26 14:14:57 nuage systemd[1]: Starting Daily man-db regeneration...
Aug 26 14:14:57 nuage systemd[1]: e2scrub_all.service: Succeeded.
Aug 26 14:14:57 nuage systemd[1]: Finished Online ext4 Metadata Check for All Filesystems.
Aug 26 14:14:57 nuage dbus-daemon[783]: [system] Activating via systemd: service name='org.freedesktop.fwupd' unit='fwupd.service' requested by ':1.11' (uid=62803 pid=1312 comm="/usr/bin/fwupdmgr refresh " label="unconfined")
Un souci avec le disque SSD que j'ai ajouté au minipc pour installer le système ? je ne voulais pas le mettre sur le disque interne emmc, d'ailleurs dans les logs je vois au des soucis avec mmcblk0boot0 et 1...
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 1.8T 0 disk
└─sda1 8:1 0 1.8T 0 part /media/odea/2to
sdb 8:16 0 111.8G 0 disk
├─sdb1 8:17 0 512M 0 part /boot/efi
└─sdb2 8:18 0 111.3G 0 part /
mmcblk0 179:0 0 58.2G 0 disk
└─mmcblk0p1 179:1 0 58.2G 0 part
mmcblk0boot0 179:8 0 4M 1 disk
mmcblk0boot1 179:16 0 4M 1 disk
Merci!
Hors ligne
#4 Le 27/08/2021, à 22:11
- Nuliel
Re : [Résolu] Serveur qui s'éteint tout seul
Pas de pb sur les messages en rouge pour moi.
A ma connaissance, en cas de crash du noyau, il y a deux cas: un kernel oops qui peut être récupéré, et si c'est irrécupérable ou dangereux de tenter de continuer de fonctionner le pc, alors c'est un kernel panic, et il faut redémarrer.
J'ai trouvé un fil sur un acepc T11 indiquant un gros pb de refroidissement. Tu peux donner
sensors
J'ai aussi trouvé https://forum.openmediavault.org/index. … acepc-t11/ qui parle d'utiliser le paramètre nomodeset, sinon il y aurait un freeze au bout de quelques minutes.
Quel noyau as tu sur ce pc?
uname -r
Hors ligne
#5 Le 28/08/2021, à 12:28
- OdEa
Re : [Résolu] Serveur qui s'éteint tout seul
Malheureusement la machine n'est plus accessible depuis la nuit dernière....
Je reviens vers toi avec les résultats des commandes dès que c'est UP, merci pour tes investigations !
Hors ligne
#6 Le 28/08/2021, à 14:43
- Nuliel
Re : [Résolu] Serveur qui s'éteint tout seul
Ok. Y a t'il sur le mini pc un écran qui était allumé quand ça a crashé? Et aussi, si le pc a été trop haut en température, il aurait dû se couper. Est ce le crash fait que le pc s'éteint, ou il faut l'éteindre puis le rallumer?
Sinon, dans le cas d'un kernel panic, il est possible de récupérer des infos via KDB, mais il faut que l'option ait été activée à la compilation du noyau (je sais pas si c'est le cas pour des noyaux ubuntu, et il faut bricoler (perso j'ai déjà utilisé KDB via un port série, mais on peut aussi le faire passer par ethernet)
Hors ligne
#7 Le 28/08/2021, à 16:06
- OdEa
Re : [Résolu] Serveur qui s'éteint tout seul
Pas sur qu'il aille si haut en température, je récupère toutes les 10min la charge CPU et elle est rarement au dessus de 10%.
J'ai pensé mettre un écran dessus, mais le PC est à 200km de chez moi (backup off-site oblige). Il faut que je le récupère pour voir son comportement de chez moi et lui mettre un écran, je pense faire ca dans quelques semaines.
Le PC a sa led bleue d'allumée, mais n'est pas accessible par SSH, je ne sais pas ce qu'il dit vu qu'il n'est pas chez moi et n'a pas d'écran, du coup je demande qu'on me fasse un hard-reboot en restant quelques secondes sur le bouton power.
Dernière modification par OdEa (Le 28/08/2021, à 16:06)
Hors ligne
#8 Le 28/08/2021, à 16:22
- Nuliel
Re : [Résolu] Serveur qui s'éteint tout seul
Ok, donc probablement pas un pb de température (sinon ça aurait juste coupé)
Ok, à mon avis c'est un crash du noyau, à investiguer.
Hors ligne
#9 Le 28/08/2021, à 19:07
- bruno
Re : [Résolu] Serveur qui s'éteint tout seul
Bonjour,
Aug 19 17:10:18 nuage multipathd[662]: path checkers start up
Aug 19 17:10:18 nuage multipathd[662]: mmcblk0boot0: failed to get udev uid: Invalid argument
Quel est l'usage du démon multipathd sur cette machine ? Il y a de la virtualisation ?
Aug 19 17:10:19 nuage udisksd[829]: Error probing device: Error sending ATA command IDENTIFY DEVICE to '/dev/sdb':
Soi c'est lié au problème précédent (virtualisation et mauvaise configuration ou bug de multipathd), soit c'est un problème du disque ou de sa connectique.
#10 Le 30/08/2021, à 22:18
- OdEa
Re : [Résolu] Serveur qui s'éteint tout seul
Salut bruno,
merci pour ton retour.
Pas de virtualisation sur la machine. J'ai aussi pensé à un souci hardware, le système est sur /dev/sdb sur un disque SSD, peut être a-t-il bougé un peu et les contacts ne sont pas bons. De mes souvenirs le disque "pendait" à l'intérieur du minipc, il n'était pas vraiment calé. Malheureusement je ne pourrai le savoir que la semaine prochaine.
Hors ligne
#11 Le 09/09/2021, à 10:13
- OdEa
Re : [Résolu] Serveur qui s'éteint tout seul
Salut,
j'ai enfin pu accéder à la machine, j'y ai branché un écran + clavier. Pas mal de messages d'erreur s'affichaient sur l'écran, même pendant que je lançais des commandes. Puis la machine ne répond plus, reboot qui fonctionne une fois sur 2, etc... bref la machine instable par excellence.
J'ai retiré le disque dur SSD puis je l'ai rebranché.
Depuis, plus aucun problème
Ca ressemblait à un faux contact ou une poussière car le disque était quand même bien inséré.
Je surveille la machine de près, mais en tout cas depuis 3 jours aucune erreur kernel.
Merci pour votre aide Nuliel et bruno !
Hors ligne
#12 Le 07/12/2021, à 11:35
- OdEa
Re : [Résolu] Serveur qui s'éteint tout seul
Salut,
je déterre ce topic pour le passer en résolu :
dans les logs je suis tombé sur ces messages d'erreur dans kern.log :
axp288_fuel_gauge axp288_fuel_gauge: Low Batt Warning(1) INTR
axp288_fuel_gauge axp288_fuel_gauge: HW IRQ 25 -> VIRQ 144
fuel_gauge_read_15bit_word.isra.0+0x39/0x80 [axp288_fuel_gauge]
fuel_gauge_get_property+0x192/0x390 [axp288_fuel_gauge]
axp288_fuel_gauge axp288_fuel_gauge: Error reading reg 0xe0 err: -110
power_supply axp288_fuel_gauge: driver failed to report `charge_full' property: -110
en cherchant axp288_fuel_gauge je suis tombé sur ce lien :
https://git.ustc.edu.cn/PtilopsisL/ubun … el_gauge.c
et j'ai contacté la personne à l'origine pour lui faire part de mon problème.
Et en effet le souci venait bien de là : avec les AcePC le kernel linux détecte que j'ai une batterie alors que je suis sur secteur. Du coup ca créé des erreurs qui freeze ma machine.
Pour remédier à ca, il faut créer le fichier /etc/modprobe.d/axp288_fuel_gauge.conf et mettre cette ligne dedans :
blacklist axp288_fuel_gauge
puis rebooter.
Le module ne se lancera plus et la machine deviendra stable.
Encore merci pour votre temps Nuliel et bruno !
Hors ligne
#13 Le 09/12/2021, à 13:35
- bruno
Re : [Résolu] Serveur qui s'éteint tout seul
Merci d'être revenu pour indiquer ta solution. Cela pourra servir à d'autres.
Pages : 1