Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 03/05/2020, à 19:52

Degenesis

Serveur off-line sans crier gare !

Salutation à vous,

Je vous vers vous, car j'ai décelé dernièrement un problème sur mon serveur en auto-hébergement (Odroid N2 - Ubuntu 18.04 LTS).
Sans vraiment que je puisse comprendre pourquoi ni comment, il semble se déconnecter du réseau (la connexion ssh est down et le site tournant sur le serveur l'est tout autant); j'ai déjà eu le même problème avec mon ancien serveur (Raspberry 3B+) et c'est donc là que je ne comprends pas, car je ne pensais pas que le problème allait resurgir.
Le problème semble vraiment survenir de façon aléatoire, soit deux jours de suite ; soit une fois par mois, c'est vraiment étrange et j'aimerais bien trouver une solution autre que débrancher et rebrancher l'appareil "à sec" (ce qui n'est sans doute pas bon pour l'électronique).

J'avais penser à installer un watchdog réalisant un ping chez Google toutes les 10 minutes et réalisant un reboot en cas de besoin, mais j'apprécierais avoir des avis d'experts pour voir s'il m'est possible de corriger ce détail vraiment dingue avant de lancer un chien de garde (qui ne me semble pas être la meilleure solution, ça cache juste le soucis sous le tapis pour moi neutral) !

Pour info, l'appareil me sert pour ceci :
- Serveur web (nginx/php/mariadb)
- Serveur DNS (unbound)
Et bientôt serveur Wireguard, pour l’après-déconfinement. roll

Merci à vous ! smile

Hors ligne

#2 Le 03/05/2020, à 20:49

lann

Re : Serveur off-line sans crier gare !

J'ai un serveur Pi3B+, et comme toi, il se déconnecte de temps en temps.
J'ai eu un CPL qui a rendu l'âme. Je l'ai changé mais ça a continué.
ça ne  l'a plus fait depuis 2 mois environ mais maintenant je fais un reboot lorsque j'ai une mise à jour du kernel ou de l'eeprom

J'avais aussi l'impression que cela ne fonctionnait plus lorsque je faisais des transferts de gros fichiers du serveur vers un poste


<Modéré>

Hors ligne

#3 Le 04/05/2020, à 08:24

Degenesis

Re : Serveur off-line sans crier gare !

Je suis déjà rassuré de ne pas être le seul touché par ce problème, mais c'est dingue que malgré un changement de matériel et d'OS (enfin j'imagine qu'on peut dire ça), le problème persiste !
Une idée de ce que cela pourrait être à ton avis ?

Hors ligne

#4 Le 04/05/2020, à 12:12

lann

Re : Serveur off-line sans crier gare !

Moi c'est sur, pour le transfert de gros fichiers dans le sens montant, ça se déconnectait ; peut être que ma prise CPL était en cause.

Mais, j'avais l'impression que ce n'était pas toujours le cas. Il y avait certaine fois, je n'avais rien transféré.
J'avais regarder les logs (apache, daemon, syslog, etc) et j'avais bien vu qu'à partir d'un moment ça ne fonctionnait plus. Comme si le serveur redémarrait tout seul et que ça plantait.
J'ai mis en place munin et smartontools mais pour l'instant je n'ai pas eu de cas concrets


<Modéré>

Hors ligne

#5 Le 06/05/2020, à 07:45

Degenesis

Re : Serveur off-line sans crier gare !

C'est vraiment dingue comme truc, j'imagine qu'il ne me reste plus qu'à installer un watchdog et voir ce qu'il se passe ! hmm

Hors ligne

#6 Le 06/05/2020, à 08:02

bruno

Re : Serveur off-line sans crier gare !

Avant d'utiliser watchdog, vérifie bien ton matériel réseau, notamment le câble Ethernet et le switch. Et effectivement un outil de surveillance simple comme munin te permettra de voir si la déconnexion du réseau correspond à une surcharge d'un service.

#7 Le 13/05/2020, à 22:26

janvi

Re : Serveur off-line sans crier gare !

Pas d'erreur sur les logs system et kernel ?
/var/log/kern.log
/var/log/syslog

Hors ligne

#8 Le 19/05/2020, à 13:37

lann

Re : Serveur off-line sans crier gare !

Voilà ça me l'a fait hier soir.
Le serveur avait l'air de tourner mais pas moyen d'aller en ssh ni apache.
J'ai vu ça dans les logs :

May 18 20:55:01 numeriquement CRON[26115]: (tuptime) CMD (   if [ -x /usr/bin/tuptime ]; then /usr/bin/t
uptime -x > /dev/null; fi)
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@
^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@May 18 20:52:04 numeriquement kern
el: [    0.000000] Booting Linux on physical CPU 0x0

Il s'arrête vers 21h00

comme s'il y avait une panne matérielle.
Je n'ai rien vu d'anormal dans les diagrammes de Munin

Ce qui est drôle, c'est que l'heure de redémarrage se situe à 20h52
La dernière heure sauvegardée ?
Une fois qu'il récupère les informations du serveur ntp, il se synchronise avec cette heure


<Modéré>

Hors ligne

#9 Le 19/05/2020, à 14:25

bruno

Re : Serveur off-line sans crier gare !

As-tu vérifié le matériel ?

C'est curieux tout ces ^@ dans tes logs…
Tu devrais virer tuptime.

Et attention si ta machine n'as pas d'horloge matérielle il faut que la synchronisation de l'horloge soit parfaitement configurée. C'est d'ailleurs peut-être l'origine de tes pannes.
Un exemple de truc con qui peut arriver. ntpd est installé mais pour pouvoir fonctionner la résolution des noms doit également fonctionner. Si c'est la même machine qui sert de résolveur, le résolveur ne pourra fonctionner que si la date est synchronisée…

#10 Le 19/05/2020, à 19:38

lann

Re : Serveur off-line sans crier gare !

Non ce n'est pas tuptime qui est en cause car je l'avais déjà viré et le problème survient 5 minutes après. J'avais oublié d'enlever la tâche cron
Mon serveur est derrière une box donc c'est la box qui gère


<Modéré>

Hors ligne

#11 Le 19/05/2020, à 19:57

bruno

Re : Serveur off-line sans crier gare !

En tous cas il y a bien un problème de synchronisation d'horloge : dernière ligne de log à 20h55 et démarrage à 20h52
Il faudrait aussi vérifier le disque ou la carte SD que tu utilises.

#12 Le 20/05/2020, à 08:20

lann

Re : Serveur off-line sans crier gare !

Voilà les retours de smartctl

sudo smartctl -H /dev/sda2
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.19.97-v7+] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Health Status: OK

udo smartctl -i -a -T verypermissive /dev/sda
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.19.97-v7+] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     KINGSTON SMS200S3240G
Serial Number:    50026B727C00CCF9
LU WWN Device Id: 5 0026b7 27c00ccf9
Firmware Version: 60AABBF0
User Capacity:    240057409536 bytes [240 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS, ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 1.5 Gb/s)
Local Time is:    Wed May 20 09:12:42 2020 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Status not supported: Incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.

General SMART Values:
Offline data collection status:  (0x02)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(    0) seconds.
Offline data collection
capabilities: 			 (0x7d) SMART execute Offline immediate.
					No Auto Offline data collection support.
					Abort Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  48) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x0025)	SCT Status supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0032   095   095   050    Old_age   Always       -       4125695
  5 Reallocated_Sector_Ct   0x0033   100   100   003    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0032   081   081   000    Old_age   Always       -       16952 (155 108 0)
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       102
171 Unknown_Attribute       0x000a   100   100   000    Old_age   Always       -       0
172 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0
174 Unknown_Attribute       0x0030   000   000   000    Old_age   Offline      -       77
177 Wear_Leveling_Count     0x0000   000   000   000    Old_age   Offline      -       0
181 Program_Fail_Cnt_Total  0x000a   100   100   000    Old_age   Always       -       0
182 Erase_Fail_Count_Total  0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0012   100   100   000    Old_age   Always       -       0
189 Unknown_SSD_Attribute   0x0000   045   098   000    Old_age   Offline      -       60135964717
194 Temperature_Celsius     0x0022   045   098   000    Old_age   Always       -       45 (Min/Max 14/98)
195 Hardware_ECC_Recovered  0x001c   120   120   000    Old_age   Offline      -       4125695
196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       0
201 Unknown_SSD_Attribute   0x001c   120   120   000    Old_age   Offline      -       4125695
204 Soft_ECC_Correction     0x001c   120   120   000    Old_age   Offline      -       4125695
230 Unknown_SSD_Attribute   0x0013   100   100   000    Pre-fail  Always       -       100
231 Temperature_Celsius     0x0000   097   097   011    Old_age   Offline      -       124554051585
233 Media_Wearout_Indicator 0x0032   000   000   000    Old_age   Always       -       4824
234 Unknown_Attribute       0x0032   000   000   000    Old_age   Always       -       3075
241 Total_LBAs_Written      0x0032   000   000   000    Old_age   Always       -       3075
242 Total_LBAs_Read         0x0032   000   000   000    Old_age   Always       -       821
244 Unknown_Attribute       0x0000   100   100   010    Old_age   Offline      -       1507339

Read SMART Error Log failed: Connexion terminée par expiration du délai d'attente

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     16944         -
# 2  Short offline       Completed without error       00%     16920         -
# 3  Extended offline    Completed without error       00%     16899         -
# 4  Short offline       Completed without error       00%     16896         -
# 5  Short offline       Completed without error       00%     16872         -
# 6  Short offline       Completed without error       00%     16848         -
# 7  Short offline       Completed without error       00%     16824         -
# 8  Short offline       Completed without error       00%     16800         -
# 9  Short offline       Completed without error       00%     16776         -
#10  Short offline       Completed without error       00%     16752         -
#11  Extended offline    Completed without error       00%     16731         -
#12  Short offline       Completed without error       00%     16728         -
#13  Short offline       Completed without error       00%     16704         -
#14  Short offline       Completed without error       00%     16680         -
#15  Short offline       Completed without error       00%     16656         -
#16  Short offline       Completed without error       00%     16632         -
#17  Short offline       Completed without error       00%     16608         -
#18  Short offline       Completed without error       00%     16584         -
#19  Extended offline    Completed without error       00%     16563         -
#20  Short offline       Completed without error       00%     16560         -
#21  Short offline       Completed without error       00%     16536         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je ne vois pas d'erreurs sur le disque.
J'ai mis en place un système de mail lorsque le disque donne des signes de fatigue et j'en n'ai pas eu.
Non pour moi, il y a un composant qui doit disjoncter à un moment précis sans cause évidente.
Mais ce n'est pas très grave, un reboot hard et c'est reparti.
Le seul souci c'est quand ça se produit et que je ne suis pas à la maison hmm:/


<Modéré>

Hors ligne

#13 Le 20/05/2020, à 12:31

janvi

Re : Serveur off-line sans crier gare !

Et rien d'autre les log (kern et system) ?

Hors ligne

#14 Le 20/05/2020, à 20:43

lann

Re : Serveur off-line sans crier gare !

Non personnellement je n'ai rien constaté ni dans les logs ni dans les graphes de Munin


<Modéré>

Hors ligne

#15 Le 21/05/2020, à 08:17

bruno

Re : Serveur off-line sans crier gare !

Tu as vérifié le disque SSD mais est-ce que ton Odroid utilise une carte SD ou autre ?
Si vraiment tu ne vois rien dans les logs et dans munin (charge système, mémoire, swap, etc.) il faut aussi penser à contrôler la température des CPU. Une alimentation insuffisante peut aussi être en cause, surtout s'il y a des périphériques auto-alimentés en USB.