Pages : 1
#1 Le 03/05/2020, à 19:52
- Degenesis
Serveur off-line sans crier gare !
Salutation à vous,
Je vous vers vous, car j'ai décelé dernièrement un problème sur mon serveur en auto-hébergement (Odroid N2 - Ubuntu 18.04 LTS).
Sans vraiment que je puisse comprendre pourquoi ni comment, il semble se déconnecter du réseau (la connexion ssh est down et le site tournant sur le serveur l'est tout autant); j'ai déjà eu le même problème avec mon ancien serveur (Raspberry 3B+) et c'est donc là que je ne comprends pas, car je ne pensais pas que le problème allait resurgir.
Le problème semble vraiment survenir de façon aléatoire, soit deux jours de suite ; soit une fois par mois, c'est vraiment étrange et j'aimerais bien trouver une solution autre que débrancher et rebrancher l'appareil "à sec" (ce qui n'est sans doute pas bon pour l'électronique).
J'avais penser à installer un watchdog réalisant un ping chez Google toutes les 10 minutes et réalisant un reboot en cas de besoin, mais j'apprécierais avoir des avis d'experts pour voir s'il m'est possible de corriger ce détail vraiment dingue avant de lancer un chien de garde (qui ne me semble pas être la meilleure solution, ça cache juste le soucis sous le tapis pour moi ) !
Pour info, l'appareil me sert pour ceci :
- Serveur web (nginx/php/mariadb)
- Serveur DNS (unbound)
Et bientôt serveur Wireguard, pour l’après-déconfinement.
Merci à vous !
Hors ligne
#2 Le 03/05/2020, à 20:49
- lann
Re : Serveur off-line sans crier gare !
J'ai un serveur Pi3B+, et comme toi, il se déconnecte de temps en temps.
J'ai eu un CPL qui a rendu l'âme. Je l'ai changé mais ça a continué.
ça ne l'a plus fait depuis 2 mois environ mais maintenant je fais un reboot lorsque j'ai une mise à jour du kernel ou de l'eeprom
J'avais aussi l'impression que cela ne fonctionnait plus lorsque je faisais des transferts de gros fichiers du serveur vers un poste
<Modéré>
Hors ligne
#3 Le 04/05/2020, à 08:24
- Degenesis
Re : Serveur off-line sans crier gare !
Je suis déjà rassuré de ne pas être le seul touché par ce problème, mais c'est dingue que malgré un changement de matériel et d'OS (enfin j'imagine qu'on peut dire ça), le problème persiste !
Une idée de ce que cela pourrait être à ton avis ?
Hors ligne
#4 Le 04/05/2020, à 12:12
- lann
Re : Serveur off-line sans crier gare !
Moi c'est sur, pour le transfert de gros fichiers dans le sens montant, ça se déconnectait ; peut être que ma prise CPL était en cause.
Mais, j'avais l'impression que ce n'était pas toujours le cas. Il y avait certaine fois, je n'avais rien transféré.
J'avais regarder les logs (apache, daemon, syslog, etc) et j'avais bien vu qu'à partir d'un moment ça ne fonctionnait plus. Comme si le serveur redémarrait tout seul et que ça plantait.
J'ai mis en place munin et smartontools mais pour l'instant je n'ai pas eu de cas concrets
<Modéré>
Hors ligne
#5 Le 06/05/2020, à 07:45
- Degenesis
Re : Serveur off-line sans crier gare !
C'est vraiment dingue comme truc, j'imagine qu'il ne me reste plus qu'à installer un watchdog et voir ce qu'il se passe !
Hors ligne
#6 Le 06/05/2020, à 08:02
- bruno
Re : Serveur off-line sans crier gare !
Avant d'utiliser watchdog, vérifie bien ton matériel réseau, notamment le câble Ethernet et le switch. Et effectivement un outil de surveillance simple comme munin te permettra de voir si la déconnexion du réseau correspond à une surcharge d'un service.
#7 Le 13/05/2020, à 22:26
- janvi
Re : Serveur off-line sans crier gare !
Pas d'erreur sur les logs system et kernel ?
/var/log/kern.log
/var/log/syslog
Hors ligne
#8 Le 19/05/2020, à 13:37
- lann
Re : Serveur off-line sans crier gare !
Voilà ça me l'a fait hier soir.
Le serveur avait l'air de tourner mais pas moyen d'aller en ssh ni apache.
J'ai vu ça dans les logs :
May 18 20:55:01 numeriquement CRON[26115]: (tuptime) CMD ( if [ -x /usr/bin/tuptime ]; then /usr/bin/t
uptime -x > /dev/null; fi)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@May 18 20:52:04 numeriquement kern
el: [ 0.000000] Booting Linux on physical CPU 0x0
Il s'arrête vers 21h00
comme s'il y avait une panne matérielle.
Je n'ai rien vu d'anormal dans les diagrammes de Munin
Ce qui est drôle, c'est que l'heure de redémarrage se situe à 20h52
La dernière heure sauvegardée ?
Une fois qu'il récupère les informations du serveur ntp, il se synchronise avec cette heure
<Modéré>
Hors ligne
#9 Le 19/05/2020, à 14:25
- bruno
Re : Serveur off-line sans crier gare !
As-tu vérifié le matériel ?
C'est curieux tout ces ^@ dans tes logs…
Tu devrais virer tuptime.
Et attention si ta machine n'as pas d'horloge matérielle il faut que la synchronisation de l'horloge soit parfaitement configurée. C'est d'ailleurs peut-être l'origine de tes pannes.
Un exemple de truc con qui peut arriver. ntpd est installé mais pour pouvoir fonctionner la résolution des noms doit également fonctionner. Si c'est la même machine qui sert de résolveur, le résolveur ne pourra fonctionner que si la date est synchronisée…
#10 Le 19/05/2020, à 19:38
- lann
Re : Serveur off-line sans crier gare !
Non ce n'est pas tuptime qui est en cause car je l'avais déjà viré et le problème survient 5 minutes après. J'avais oublié d'enlever la tâche cron
Mon serveur est derrière une box donc c'est la box qui gère
<Modéré>
Hors ligne
#11 Le 19/05/2020, à 19:57
- bruno
Re : Serveur off-line sans crier gare !
En tous cas il y a bien un problème de synchronisation d'horloge : dernière ligne de log à 20h55 et démarrage à 20h52
Il faudrait aussi vérifier le disque ou la carte SD que tu utilises.
#12 Le 20/05/2020, à 08:20
- lann
Re : Serveur off-line sans crier gare !
Voilà les retours de smartctl
sudo smartctl -H /dev/sda2
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.19.97-v7+] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK
udo smartctl -i -a -T verypermissive /dev/sda
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.19.97-v7+] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: KINGSTON SMS200S3240G
Serial Number: 50026B727C00CCF9
LU WWN Device Id: 5 0026b7 27c00ccf9
Firmware Version: 60AABBF0
User Capacity: 240057409536 bytes [240 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ATA8-ACS, ACS-2 T13/2015-D revision 3
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is: Wed May 20 09:12:42 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART Status not supported: Incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
General SMART Values:
Offline data collection status: (0x02) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x7d) SMART execute Offline immediate.
No Auto Offline data collection support.
Abort Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 48) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x0025) SCT Status supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x0032 095 095 050 Old_age Always - 4125695
5 Reallocated_Sector_Ct 0x0033 100 100 003 Pre-fail Always - 0
9 Power_On_Hours 0x0032 081 081 000 Old_age Always - 16952 (155 108 0)
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 102
171 Unknown_Attribute 0x000a 100 100 000 Old_age Always - 0
172 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 0
174 Unknown_Attribute 0x0030 000 000 000 Old_age Offline - 77
177 Wear_Leveling_Count 0x0000 000 000 000 Old_age Offline - 0
181 Program_Fail_Cnt_Total 0x000a 100 100 000 Old_age Always - 0
182 Erase_Fail_Count_Total 0x0032 100 100 000 Old_age Always - 0
187 Reported_Uncorrect 0x0012 100 100 000 Old_age Always - 0
189 Unknown_SSD_Attribute 0x0000 045 098 000 Old_age Offline - 60135964717
194 Temperature_Celsius 0x0022 045 098 000 Old_age Always - 45 (Min/Max 14/98)
195 Hardware_ECC_Recovered 0x001c 120 120 000 Old_age Offline - 4125695
196 Reallocated_Event_Count 0x0033 100 100 003 Pre-fail Always - 0
201 Unknown_SSD_Attribute 0x001c 120 120 000 Old_age Offline - 4125695
204 Soft_ECC_Correction 0x001c 120 120 000 Old_age Offline - 4125695
230 Unknown_SSD_Attribute 0x0013 100 100 000 Pre-fail Always - 100
231 Temperature_Celsius 0x0000 097 097 011 Old_age Offline - 124554051585
233 Media_Wearout_Indicator 0x0032 000 000 000 Old_age Always - 4824
234 Unknown_Attribute 0x0032 000 000 000 Old_age Always - 3075
241 Total_LBAs_Written 0x0032 000 000 000 Old_age Always - 3075
242 Total_LBAs_Read 0x0032 000 000 000 Old_age Always - 821
244 Unknown_Attribute 0x0000 100 100 010 Old_age Offline - 1507339
Read SMART Error Log failed: Connexion terminée par expiration du délai d'attente
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 16944 -
# 2 Short offline Completed without error 00% 16920 -
# 3 Extended offline Completed without error 00% 16899 -
# 4 Short offline Completed without error 00% 16896 -
# 5 Short offline Completed without error 00% 16872 -
# 6 Short offline Completed without error 00% 16848 -
# 7 Short offline Completed without error 00% 16824 -
# 8 Short offline Completed without error 00% 16800 -
# 9 Short offline Completed without error 00% 16776 -
#10 Short offline Completed without error 00% 16752 -
#11 Extended offline Completed without error 00% 16731 -
#12 Short offline Completed without error 00% 16728 -
#13 Short offline Completed without error 00% 16704 -
#14 Short offline Completed without error 00% 16680 -
#15 Short offline Completed without error 00% 16656 -
#16 Short offline Completed without error 00% 16632 -
#17 Short offline Completed without error 00% 16608 -
#18 Short offline Completed without error 00% 16584 -
#19 Extended offline Completed without error 00% 16563 -
#20 Short offline Completed without error 00% 16560 -
#21 Short offline Completed without error 00% 16536 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Je ne vois pas d'erreurs sur le disque.
J'ai mis en place un système de mail lorsque le disque donne des signes de fatigue et j'en n'ai pas eu.
Non pour moi, il y a un composant qui doit disjoncter à un moment précis sans cause évidente.
Mais ce n'est pas très grave, un reboot hard et c'est reparti.
Le seul souci c'est quand ça se produit et que je ne suis pas à la maison :/
<Modéré>
Hors ligne
#13 Le 20/05/2020, à 12:31
- janvi
Re : Serveur off-line sans crier gare !
Et rien d'autre les log (kern et system) ?
Hors ligne
#14 Le 20/05/2020, à 20:43
- lann
Re : Serveur off-line sans crier gare !
Non personnellement je n'ai rien constaté ni dans les logs ni dans les graphes de Munin
<Modéré>
Hors ligne
#15 Le 21/05/2020, à 08:17
- bruno
Re : Serveur off-line sans crier gare !
Tu as vérifié le disque SSD mais est-ce que ton Odroid utilise une carte SD ou autre ?
Si vraiment tu ne vois rien dans les logs et dans munin (charge système, mémoire, swap, etc.) il faut aussi penser à contrôler la température des CPU. Une alimentation insuffisante peut aussi être en cause, surtout s'il y a des périphériques auto-alimentés en USB.
Pages : 1