Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#101 Le 18/11/2016, à 11:33

piouk03

Re : [Résolu] Problème RAID5 mdadm

Encore merci à vous 2. Je lance ça dès maintenant et je vous tiens informé du résultat.

Hors ligne

#102 Le 19/11/2016, à 00:53

jamesbad000

Re : [Résolu] Problème RAID5 mdadm

J'ai finalement trouvé le moyen de réinitialiser le disque avec hdparm
2 vérifications en préambule

root@Extensa: hdparm -V
hdparm v9.43

la version doit être au moins 9.31

root@Extensa: sudo hdparm -I /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214
  ...
Security: 
        Master password revision code = 65534
                supported
        not     enabled
        not     locked
        not     frozen
        not     expired: security count
                supported: enhanced erase
        114min for SECURITY ERASE UNIT. 114min for ENHANCED SECURITY ERASE UNIT. 

dans les options de sécurité il doit être indiqué "not frozen" sinon on s'arrête là
"114min for SECURITY ERASE" indique le temps prévu pour l'effacement

ensuite activer le mot de passe de sécurité et lancer l'effacement (c'est le disque lui même qui fait l'opération en interne)

sudo hdparm --user-master u --security-set-pass azerty /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214
sudo hdparm --user-master u --security-erase azerty /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214

Vérification du retour à la normale

sudo hdparm -I /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214

ps : donner en retour le contenu intégral du terminal  (commande + résultat) d'un bloc

Dernière modification par jamesbad000 (Le 19/11/2016, à 01:09)


L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)

Hors ligne

#103 Le 19/11/2016, à 10:48

piouk03

Re : [Résolu] Problème RAID5 mdadm

Pas de chance le disque est en "frozen" :

root@ubuntu:~# hdparm -V
hdparm v9.48

root@ubuntu:~# sudo hdparm -I /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214

/dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214:

ATA device, with non-removable media
	Model Number:       WDC WD20EZRX-00D8PB0                    
	Serial Number:      WD-WCC4N1174214
	Firmware Revision:  80.00A80
	Transport:          Serial, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
Standards:
	Supported: 9 8 7 6 5 
	Likely used: 9
Configuration:
	Logical		max	current
	cylinders	16383	16383
	heads		16	16
	sectors/track	63	63
	--
	CHS current addressable sectors:   16514064
	LBA    user addressable sectors:  268435455
	LBA48  user addressable sectors: 3907029168
	Logical  Sector size:                   512 bytes
	Physical Sector size:                  4096 bytes
	device size with M = 1024*1024:     1907729 MBytes
	device size with M = 1000*1000:     2000398 MBytes (2000 GB)
	cache/buffer size  = unknown
	Nominal Media Rotation Rate: 5400
Capabilities:
	LBA, IORDY(can be disabled)
	Queue depth: 32
	Standby timer values: spec'd by Standard, with device specific minimum
	R/W multiple sector transfer: Max = 16	Current = 16
	DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 
	     Cycle time: min=120ns recommended=120ns
	PIO: pio0 pio1 pio2 pio3 pio4 
	     Cycle time: no flow control=120ns  IORDY flow control=120ns
Commands/features:
	Enabled	Supported:
	   *	SMART feature set
	    	Security Mode feature set
	   *	Power Management feature set
	   *	Write cache
	   *	Look-ahead
	   *	Host Protected Area feature set
	   *	WRITE_BUFFER command
	   *	READ_BUFFER command
	   *	NOP cmd
	   *	DOWNLOAD_MICROCODE
	    	Power-Up In Standby feature set
	   *	SET_FEATURES required to spinup after power up
	    	SET_MAX security extension
	   *	48-bit Address feature set
	   *	Device Configuration Overlay feature set
	   *	Mandatory FLUSH_CACHE
	   *	FLUSH_CACHE_EXT
	   *	SMART error logging
	   *	SMART self-test
	   *	General Purpose Logging feature set
	   *	64-bit World wide name
	   *	WRITE_UNCORRECTABLE_EXT command
	   *	{READ,WRITE}_DMA_EXT_GPL commands
	   *	Segmented DOWNLOAD_MICROCODE
	   *	Gen1 signaling speed (1.5Gb/s)
	   *	Gen2 signaling speed (3.0Gb/s)
	   *	Gen3 signaling speed (6.0Gb/s)
	   *	Native Command Queueing (NCQ)
	   *	Host-initiated interface power management
	   *	Phy event counters
	   *	NCQ priority information
	   *	READ_LOG_DMA_EXT equivalent to READ_LOG_EXT
	   *	DMA Setup Auto-Activate optimization
	    	Device-initiated interface power management
	   *	Software settings preservation
	   *	SMART Command Transport (SCT) feature set
	   *	SCT Write Same (AC2)
	   *	SCT Features Control (AC4)
	   *	SCT Data Tables (AC5)
	    	unknown 206[12] (vendor specific)
	    	unknown 206[13] (vendor specific)
	    	unknown 206[14] (vendor specific)
Security: 
	Master password revision code = 65534
		supported
	not	enabled
	not	locked
		frozen
	not	expired: security count
		supported: enhanced erase
	266min for SECURITY ERASE UNIT. 266min for ENHANCED SECURITY ERASE UNIT. 
Logical Unit WWN Device Identifier: 50014ee20a2352f9
	NAA		: 5
	IEEE OUI	: 0014ee
	Unique ID	: 20a2352f9
Checksum: correct

Hors ligne

#104 Le 19/11/2016, à 10:50

piouk03

Re : [Résolu] Problème RAID5 mdadm

Sinon l'autre opération est terminée et on est toujours à 66 secteur en current pending.

Dernière modification par piouk03 (Le 19/11/2016, à 10:50)

Hors ligne

#105 Le 19/11/2016, à 15:35

jamesbad000

Re : [Résolu] Problème RAID5 mdadm

Donne toujours le retour de smartctl -a que l'on voit si des informations complémentaires sont apparues par ailleurs...

Sinon, le statut "frozen" est normalement activé par le bios au démarrage lorsqu'un mot de passe bios est activé.
Donc désactive le mot de passe du bios si c'est le cas.

Par ailleurs cet attribut est volatile et disparaît lors d'une mise hors tension du disque. Donc mettre le pc en veille (non prolongée) et le réveiller peut suffire (si le bios ne le réactive pas lors du réveil, ce qui semble être souvent le cas)

Autrement il faut essayer sur un autre pc (mais il est fortement déconseillé de le faire via usb => connexion sata obligatoire)


L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)

Hors ligne

#106 Le 19/11/2016, à 16:21

piouk03

Re : [Résolu] Problème RAID5 mdadm

Pas de mot de passe sur le bios. Là le PC était en veille et ça n'a rien changé. Pas d'option possible à changer dans le bios ? Ou d'autre solution pour éviter d'avoir à le changer de PC ?

Sinon pour smartctl :

root@ubuntu:~# sudo smartctl -A /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   195   195   051    Pre-fail  Always       -       21710
  3 Spin_Up_Time            0x0027   184   175   021    Pre-fail  Always       -       5800
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       436
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1035
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       435
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       141
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       10373
194 Temperature_Celsius     0x0022   120   114   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   199   199   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       66
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       25
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   196   000    Old_age   Offline      -       89

Hors ligne

#107 Le 19/11/2016, à 16:37

jamesbad000

Re : [Résolu] Problème RAID5 mdadm

smartctl -a pour avoir toutes les info. et non smartctl -A

piouk03 a écrit :

Là le PC était en veille et ça n'a rien changé. Pas d'option possible à changer dans le bios ? Ou d'autre solution pour éviter d'avoir à le changer de PC ?

Pour d'autres options du bios, c'est trop spécifique à chaque pc, et je ne peux guère te guider. Il faut fouiller ou lire la doc (bios/carte mère)

Autre solution, redémarrer le pc avec le cable sata du disque déconnecté, et le reconnecter à chaud. (pas vraiment conseillé  mais ça peut fonctionner... ou planter le pc)
voir le lien suivant en anglais https://ata.wiki.kernel.org/index.php/ATA_Secure_Erase

Dernière modification par jamesbad000 (Le 19/11/2016, à 16:38)


L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)

Hors ligne

#108 Le 19/11/2016, à 16:43

jamesbad000

Re : [Résolu] Problème RAID5 mdadm

En fait pour les options du bios, toute option relative à la sécurité est susceptible d'avoir un lien avec ce problème. Donc désactiver toute option de sécurité s'il y en a.

Dernière modification par jamesbad000 (Le 19/11/2016, à 16:44)


L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)

Hors ligne

#109 Le 19/11/2016, à 20:20

piouk03

Re : [Résolu] Problème RAID5 mdadm

Ok je vais faire des tests demain je te tiens au courant.

Pour la commande avec le -a :

root@ubuntu:~# sudo smartctl -a /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD20EZRX-00D8PB0
Serial Number:    WD-WCC4N1174214
LU WWN Device Id: 5 0014ee 20a2352f9
Firmware Version: 80.00A80
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Sat Nov 19 18:18:53 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 116)    The previous self-test completed having
                    the read element of the test failed.
Total time to complete Offline 
data collection:         (25140) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 254) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x7035)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   195   195   051    Pre-fail  Always       -       21710
  3 Spin_Up_Time            0x0027   184   175   021    Pre-fail  Always       -       5800
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       436
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1044
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       435
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       141
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       10373
194 Temperature_Celsius     0x0022   119   114   000    Old_age   Always       -       31
196 Reallocated_Event_Count 0x0032   199   199   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       66
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       25
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   196   000    Old_age   Offline      -       89

SMART Error Log Version: 1
ATA Error Count: 9 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 9 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:54:09.032  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:09.008  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:54:03.928  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 0a      00:54:03.921  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:03.857  IDENTIFY DEVICE

Error 8 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:54:03.921  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:03.857  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:58.753  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 0a      00:53:58.746  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:58.705  IDENTIFY DEVICE

Error 7 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:53:58.746  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:58.705  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.465  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.457  SET FEATURES [Set transfer mode]

Error 6 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 0a      00:53:29.457  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:29.444  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.433  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.425  SET FEATURES [Set transfer mode]

Error 5 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 0a      00:53:29.425  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:29.409  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.401  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.393  SET FEATURES [Set transfer mode]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       40%      1015         1031414824

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Hors ligne

#110 Le 19/11/2016, à 21:54

Bougron

Re : [Résolu] Problème RAID5 mdadm

Bonsoir
Formates ce disque en créant une table de partition et une seule partition et refais un smartctl.
Afin de voir si le compteur 197 change de valeur rien que par cette action

Hors ligne

#111 Le 19/11/2016, à 22:36

jamesbad000

Re : [Résolu] Problème RAID5 mdadm

L'auto test s'est arrêté après une erreur de lecture sur un secteur qui n'avait pas été détecté précédemment.

Self-test execution status:      ( 116)    The previous self-test completed having
                    the read element of the test failed.
...
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       40%      1015         1031414824

Ca commence à faire beaucoup d'indices sur le manque de fiabilité de ce disque.


L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)

Hors ligne

#112 Le 19/11/2016, à 22:56

Bougron

Re : [Résolu] Problème RAID5 mdadm

Bonsoir
Pour le moment, on en est a un secteur qui a été remplacé  et a un second secteur qui semble devoir être remplacé à plus de 1 To de controlé.
Je trouve que cela ne fait pas  beaucoup d'erreurs,

j'attends donc les lectures de la totalité des autres secteurs des trois autres disques afin d'avoir une vue plus vaste.

Dernière modification par Bougron (Le 19/11/2016, à 22:58)

Hors ligne

#113 Le 20/11/2016, à 00:09

Bougron

Re : [Résolu] Problème RAID5 mdadm

jamesbad000 a écrit :

L'auto test s'est arrêté après une erreur de lecture sur un secteur qui n'avait pas été détecté précédemment.

Self-test 0execution status:      ( 116)    The previous self-test completed having
                    the read element of the test failed.
...
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       40%      1015         1031414824

Ca commence à faire beaucoup d'indices sur le manque de fiabilité de ce disque.

On va essayer de trouver ce secteur LBA 1031414824
Pour un peu, je dirais que la taille du bloc logique est de 1024
Dans le doute

sudo   dd  if=/dev/sdb bs=1024  skip=1031414824 count=1

    Cette ligne a été corrigée
Si lisible refaire avec bs=512
Si illisible, faire une tentative d'ecriture avec le bs égal à celui de l'erreur de lecture.

 sudo  if=/dev/zero  of=/dev/sdb   bs=1024  seek=1031414824 count=1

Si écriture correcte, refaire la lecture.

Dernière modification par Bougron (Le 20/11/2016, à 10:31)

Hors ligne

#114 Le 20/11/2016, à 02:10

jamesbad000

Re : [Résolu] Problème RAID5 mdadm

Bougron a écrit :

Pour le moment, on en est a un secteur qui a été remplacé  et a un second secteur qui semble devoir être remplacé à plus de 1 To de controlé.
Je trouve que cela ne fait pas  beaucoup d'erreurs,

Franchement, cette vision est totalement hasardeuse.

Déjà un seul secteur endommagé au début de la chaine d'allocation des emplacements d'un répertoire peut faire perdre tous le contenu d'un répertoire et ses sous répertoires. (potentiellement tout le contenu du disque)
Ensuite il y en a encore au moins 66 autres dans un état indéterminé + le compteur d'erreurs de lecture. Et l'inconnue liée à l'arrêt prématurée du test de lecture.
Et surtout le fait que la situation n'est pas stabilisée.

Bougron a écrit :

Pour un peu, je dirais que la taille du bloc logique est de 1024

Avec des secteur logique/physique de 512/4096 tu choisis 1024 en première intention ?

Bougron a écrit :
sudo   dd  if=/dev/sdb bs=1024  skip=1031414823 count=1
(...)
 sudo  if=/dev/zero  of=/dev/sdb   bs=1024  seek=1031414824 count=1

Je ne sais pas d'où sort cette cette idée étrange que la valeur de seek devrait être 1 de plus que la valeur de skip (cf également ton post #34. https://forum.ubuntu-fr.org/viewtopic.p … #p21620261
Mais il faut arrêter la propagation de cette erreur

root@Miragek1404:~# dd if=/dev/sdb count=1 skip=1000 bs=512| hd
1+0 enregistrements lus
1+0 enregistrements écrits
512 octets (512 B) copiés, 0,000838508 s, 611 kB/s
00000000  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00 |................|
*
00000200
root@Miragek1404:~# echo " ceci est un test" | dd of=/dev/sdb bs=512 seek=1000
0+1 enregistrements lus
0+1 enregistrements écrits
18 octets (18 B) copiés, 0,000587975 s, 30,6 kB/s
root@Miragek1404:~# dd if=/dev/sdb count=1 skip=1000 bs=512| hd
1+0 enregistrements lus
1+0 enregistrements écrits
00000000  20 63 65 63 69 20 65 73  74 20 75 6e 20 74 65 73  | ceci est un tes|
00000010  74 0a 00 00 00 00 00 00  00 00 00 00 00 00 00 00  |t...............|
00000020  00 00 00 00 00 00 00 00  00 00 00 00 00 00 00 00 |................|
*
512 octets (512 B) copiés, 0,00228793 s, 224 kB/s
00000200

Dernière modification par jamesbad000 (Le 20/11/2016, à 03:48)


L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)

Hors ligne

#115 Le 20/11/2016, à 09:04

Bougron

Re : [Résolu] Problème RAID5 mdadm

jamesbad000 a écrit :

L'auto test s'est arrêté après une erreur de lecture sur un secteur qui n'avait pas été détecté précédemment.

Self-test execution status:      ( 116)    The previous self-test completed having
                    the read element of the test failed.
...
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       40%      1015         1031414824

Ca commence à faire beaucoup d'indices sur le manque de fiabilité de ce disque.

Il me semble que ce test  s'arrête dès l'instant où il ne peu pas lire un secteur.
Comme il y en a quand même 60% de traité et que le disque fait 2To
Avec une valeur de 4096   Cela ne colle pas, Avec une valeur de 512,   On  serait à 500Go environ
Donc pourquoi pas avec une valeur de 1024, certains utilitaires (badblocc) utilisent cette valeur par défaut.

PS. Je ne suis qu'un utilisateur normal,  et ne souhaites qu'une chose, lire et écrire sur le disque
  Et être prévenu lorsque cela ne fonctionne pas. Ce qui n'est pas facile car il faut insetir d'une façon incroyable
    1)    installer gsmartcontrol
    2)    Le paramétrer pour recevoir un email
    3) Qui nous dira que le disque va mourrir dans les 24 heures
On pourrait espérer mieux,  Ainsi en regardant la sortie de smartctl   On arrive a voir quelques infos
   1) L'age du disque
   2) le nombre de chocs
  3) le nombre d'erreurs réparées
  4) Le nombre de CI détectés illisibles
  5) Pour un SSD le pourcentage d'usure avant qu'il soit déclaré en lecture seule
  6) Pour un disque dur, le nombre de secteurs réalloués
    Mais pour savoir si la table de réallocation est utilisée à 0,1%  ou 90% , il faut avoir de la chance.
   Dans les quelques discussions de ce style ou j'ai participé, je suis tombé sur un cas ou le nombre de secteures réalloués restait désespérément à 0 laissant croire qu'il n'y avait pas de table de réallocation
et d'autre cas que la table de réallocation était limitée à 1 !!!!!
Mais pour ce modèle, les quelques recherches que j'ai fais me font penser à une valeur entre 500 et 1000

Je vais rectifier l'erreur de positionnement

Dernière modification par Bougron (Le 20/11/2016, à 10:27)

Hors ligne

#116 Le 22/11/2016, à 20:48

piouk03

Re : [Résolu] Problème RAID5 mdadm

Plusieurs choses :

Mon problème d'installation et de mise à jour vient bien de ma configuration réseau. Si je suis en IP fixe avec webmin ça ne fonctionne pas. En DHCP c'est ok.

Ensuite j'ai essayé le branchement du sata a chaud :

root@server:~# sudo hdparm -I /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214
/dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214: No such file or directory

Je pense donc que je vais changer ce disque et puis c'est tout... De toute façon vous avec l'air perplexe sur sa remise en forme.

Hors ligne

#117 Le 22/11/2016, à 23:01

Bougron

Re : [Résolu] Problème RAID5 mdadm

Bonsoir
C'est ton droit de changer le disque...
Mais si tu le changes, écris sur tout le disque qui vient de le remplacer et relis tout le disque pour avoir un bilan de démarrage. au cas où il serait déjà en plus mauvais état que celui que tu élimines.

Pour la remise en forme, il y a trois philosophies  qui se  rencontrent
1) Il y a un secteur bousillé  => Le disque est à changer
2) On se fout du nombre de secteur bousillés, ce qui compte, c 'est le nombre de secteurs illisibles.
    A ce sujet, je n'ai aucune idée de cette quantité de secteurs illisibles sur ce disque formaté et sur les 3 autres disques.
    Je rappelle qu'aucun des disques n'a été relu par un logiciel applicatif du style ddrescue à 100%
3) Ce n'est pas grave que le disque soit HS car j'ai une protection RAID   de plus dans mon coffre fort, il y a un double.

Quelques éléments.
  A priori les constructeurs ont tendance à dire que 5% de secteurs inutilisables n'est pas catastrophique.
=>  Je recherche depuis cette discussion, une étude de laboratoire qui testait un firmware capable de gérer 50% de secteurs HS.

Le problème d'un  seul secteur  illisible est  stressant.
    A) Le secteur n'appartient pas à la structure de fichier, ni à un fichier: On n'est pas au courant.
    B) Le secteur n'appartient pas à la structure de fichier mais à un fichier qu'on ne lit pas: On n'est pas au courant.
    C) Le secteur n'appartient pas à la structure de fichier mais à un fichier qu'on  lit: On est  au courant.
                   Soit c'est une photo et la couleur des yeux peut être impactée après réparation.
                   Soit c'est de la musique et il peut y avoir un couac que seules les oreilles averties vont percevoir.
                   Soit  c'est un bilan comptable et l'entreprise peut mettre les clés sous la porte.
  D) Le secteur appartient à la structure de  fichiers  et
           C'est formaté en EXT4:  Perte d'un maxima de fichiers avec tous les risques vus ci-dessus.
         ====> Mais dans ce contexte, il existe des superblocs de secours; Je ne sais pas si un formatage dans un RAID traite aussi bien d'en dehors d'un RAID avec présence de superblocs de secours qu'il faut alors aller récupérer à des endroits bien précis pour les mettre en substitution des secteurs devenus illisibles.
      Avec une taille de 2To, je ne serais pas surpris que chaque secteurs de gestion des fichiers soit dupliqué en plus de 10 exemplaires.
     =====> A noter qu'avec l'arrivée de la version 16.10 , cette gestion va s'améliorer avec cette "metadata_csum" qui devient celle par défaut.

           C'est formaté BTRFS et le logiciel va refabriquer la valeur.   Pour le moment, je ne sais pas comment il alerte.

Un peu de stats que je maîtrise mal (Merci de me reprendre si je me trompe)
Le disque B fait 2 To   soit donc  500 000 000 blocs.
En six mois on va dire que 90 sont devenus HS.    (1 tous les deux jours)
Regardons donc combien sont devenus HS pendant cette période sur le double.
    A priori 0. Mais on va dire la même quantité. Soit donc 90. 
    Dans combien de temps va-t-on avoir un même secteur HS pour les deux disques  avec une dégradation de 90 secteurs tous les six mois???
  Je donnerais la réponse dans quelque temps.
         Dans 10 jours? Dans 10 ans? Dans 10 millénaires ?

Ma conclusion est qu'il est important de savoir si ce disque se détruit ou pas.
N'ayant aucun relevé au moment de la première utilisation, il est impossible de dire si c'est stabilisé ou pas.
C'est pour cela que je demande depuis pas mal de temps un bilan de lecture pour les 4 disques.

AJOUT. je vois que tu vas continuer  encore un peu avec ce disque
    A) Donc on va avoir un bilan de lecture du disque.     Il peut laisser à désirer.
    B) Tu va donc formater ce disque en ext4     
    C) Tu vas écrire dans cette partition EXT4
 

   sudo    dd   if=/dev/zero    of=/dev/sdb1   bs=1M

    D) Tu vas relire cette partition    d'abord avec cette commande
 

   sudo    dd   if=/dev/sdb1    of=/dev/null  bs=1M

    E)  Puis un smartctl

Tout cela est indépendant des solutions  techniques de hdparm
la déactivation du mode économique des disque est a faire pour le 4 disques.

Dernière modification par Bougron (Le 23/11/2016, à 07:27)

Hors ligne

#118 Le 22/11/2016, à 23:30

piouk03

Re : [Résolu] Problème RAID5 mdadm

Ok bougron je te redonne ça demain.

Hors ligne

#119 Le 23/11/2016, à 01:11

jamesbad000

Re : [Résolu] Problème RAID5 mdadm

Disons que je reste modérément optimiste sur la possibilité de le remettre en état.

Reste à régler le problème de parcage de tête... Après avoir lu le fil dédié ici https://forum.ubuntu-fr.org/viewtopic.p … #p21497273

Je vois 3 approches.
> option -B de hdparm qui me semble traiter le problème de façon indirecte, en agissant globalement sur la réglage de la gestion d'énergie.

> l'option -J de hdparm qui agit spécifiquement sur le réglage de parcage des têtes des disque WD caviar. Mais dans l'aide même de la commande ils recommandent l'option ci-dessous

> l'utilitaire wdidle3 pour lequel tu trouvera un tuto écrit par un membre du forum ici [url][modéré : pas d’auto-pub, merci]-calmer-cycles-de-chargement-tetes-disques-wd/[/url]
C'est l'option que je recommande.

N'hésite pas à nous relancer si ça n'est pas clair

Dernière modification par jamesbad000 (Le 23/11/2016, à 01:18)


L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)

Hors ligne

#120 Le 23/11/2016, à 12:26

piouk03

Re : [Résolu] Problème RAID5 mdadm

Le dernier tuto que tu m'as envoyé me plait bien. Mes disques sont des "green" donc a économie d'énergie. Le changement fait dans ce tuto pourrait régler mon problème de lenteur voir de plantage du premier fichier chargé sur mes disques au démarrage du serveur ou après un long moment de non utilisation.

Je vais regarder ça. Merci beaucoup

Hors ligne

#121 Le 23/11/2016, à 12:32

piouk03

Re : [Résolu] Problème RAID5 mdadm

ubuntu@ubuntu:~$ sudo     smartctl     -s    on   -a    /dev/sda
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD20EZRX-00D8PB0
Serial Number:    WD-WCC4N1077118
LU WWN Device Id: 5 0014ee 20a25d9cb
Firmware Version: 80.00A80
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Nov 23 10:31:05 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:         (28680) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 289) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x7035)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   180   173   021    Pre-fail  Always       -       5958
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       459
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1073
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       458
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       151
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       11337
194 Temperature_Celsius     0x0022   125   111   000    Old_age   Always       -       25
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ubuntu@ubuntu:~$ sudo     smartctl     -s    on   -a    /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD20EZRX-00D8PB0
Serial Number:    WD-WCC4N1174214
LU WWN Device Id: 5 0014ee 20a2352f9
Firmware Version: 80.00A80
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Nov 23 10:31:13 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)    Offline data collection activity
                    was suspended by an interrupting command from host.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:         (25140) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 254) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x7035)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   195   195   051    Pre-fail  Always       -       21710
  3 Spin_Up_Time            0x0027   182   175   021    Pre-fail  Always       -       5891
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       452
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1049
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       451
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       147
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       10442
194 Temperature_Celsius     0x0022   124   114   000    Old_age   Always       -       26
196 Reallocated_Event_Count 0x0032   199   199   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       70
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       25
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   196   000    Old_age   Offline      -       89

SMART Error Log Version: 1
ATA Error Count: 9 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 9 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:54:09.032  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:09.008  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:54:03.928  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 0a      00:54:03.921  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:03.857  IDENTIFY DEVICE

Error 8 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:54:03.921  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:03.857  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:58.753  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 0a      00:53:58.746  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:58.705  IDENTIFY DEVICE

Error 7 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:53:58.746  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:58.705  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.465  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.457  SET FEATURES [Set transfer mode]

Error 6 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 0a      00:53:29.457  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:29.444  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.433  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.425  SET FEATURES [Set transfer mode]

Error 5 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 0a      00:53:29.425  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:29.409  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.401  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.393  SET FEATURES [Set transfer mode]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       40%      1015         1031414824

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ubuntu@ubuntu:~$ sudo     smartctl     -s    on   -a    /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD20EZRX-00D8PB0
Serial Number:    WD-WCC4M2859957
LU WWN Device Id: 5 0014ee 25f7b3e08
Firmware Version: 80.00A80
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Nov 23 10:31:19 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:         (26880) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 271) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x7035)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   174   170   021    Pre-fail  Always       -       4258
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       454
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1072
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       453
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       149
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       5187
194 Temperature_Celsius     0x0022   122   108   000    Old_age   Always       -       25
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ubuntu@ubuntu:~$ sudo     smartctl     -s    on   -a    /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD20EZRX-00D8PB0
Serial Number:    WD-WCC4M2859922
LU WWN Device Id: 5 0014ee 25f7b9dcd
Firmware Version: 80.00A80
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Nov 23 10:31:23 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)    Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:         (26760) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 270) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x7035)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   174   170   021    Pre-fail  Always       -       4291
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       452
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1072
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       451
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       145
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       11281
194 Temperature_Celsius     0x0022   122   110   000    Old_age   Always       -       25
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Hors ligne

#122 Le 27/11/2016, à 11:08

Bougron

Re : [Résolu] Problème RAID5 mdadm

Bonjour.
Avais-tu bien recréé la partition sdb1 avant de faire le smartctl?
et fais aussi la commande

 sudo   dd   If=/dev/zero   of=/dev/sdb1    bs=1M   

A l'issue de cette commande, le reformatage est à refaire.

As-tu passé l'utilitaire sur les 4 disques?

Dernière modification par Bougron (Le 27/11/2016, à 12:44)

Hors ligne

#123 Le 29/11/2016, à 18:53

piouk03

Re : [Résolu] Problème RAID5 mdadm

Bonjour,

Excuse moi pour la réponse très tardive. Je suis un peu débordé par le boulot en ce moment, donc je serveur est en pause. Je vais essayer de prendre le temps de m'y remettre ce week-end, je te tiens au courant.

Pour l'instant j'ai fais le changement proposé par jamesbad000 avec l'utilitaire wdidle3, sur un beau ubuntu 16.04 fraîchement réinstallé.

Au passage j'ai réglé mon problème d'installation qui échouait. J'avais passé mon serveur en IP fixe, avec comme DNS l'IP de ma box, mais le DNS n'est pas l'adresse de ma box... Merci free smile

J'ai changé le disque qui posait problème pour remettre le serveur en état et monter le disque défectueux tranquillement sur un autre ordinateur pour le remettre en état (lui aussi) : je me suis dis que de toute façon ça ferait un disque d'avance.

Mais lorsque j'ai recréé le RAID5 sur le serveur avec le nouveau disque j'avais des erreurs "ata0.0.3" "ata0.0.2" (un truc comme ça). Et j'ai bien remplacé le bon disque, j'ai revérifié. Donc là j'ai commencé de faire un formatage des 4 disques disques avant de remonter le RAID pour voir ce que ça donnait. Et après ça je comptais vous tenir informé de mes aventures et des résultats obtenus, mais je n'ai pas encore terminé...!

Donc la suite en début de week end...Où je vous en dirait plus, mais je ne crois pas trop que les formatages suffisent à régler les erreurs.

Dernière modification par piouk03 (Le 29/11/2016, à 18:57)

Hors ligne

#124 Le 29/11/2016, à 19:00

piouk03

Re : [Résolu] Problème RAID5 mdadm

En faite je viens de revérifier, les erreurs étaient les mêmes qu'au début ou vous avez réussi à me faire resynchroniser mon RAID avec le disque défectueux : http://fonteniaud.fr/serveur.jpg

Mais avec le numéro 4 qui était soit un 2 soit un 3 à la fin de ata0.0.4

Hors ligne

#125 Le 29/11/2016, à 19:39

Bougron

Re : [Résolu] Problème RAID5 mdadm

Bonsoir
Pourquoi n'as-tu pas fais un copier/coller au lieu de prendre une photo.   C'est plus difficile à lire et en sélecter une partie est quasi impossible pour nous.
https://bbs.archlinux.org/viewtopic.php?id=151642
J'ai noté que maintenant, tu es passé en version 16.04 et que tu as un nouveau disque.
Je pensais que tu allais tester un peu le nouveau disque (en écrivant dessus  à ma façon ou en utilisant les tests longs)  et en faisant un smartctl initial.
Pour le smartclt, il n'est pas trop tard.
Je n'ai pas compris ton idée de reformater les 4 disques!  Le disque aurait pu s'ajouter "à la volée" sans interruption de service.

Je comprends que la re-création du RAIDS est en train de se faire...ou est la prochaine étape qui va se faire ce week-end.

Dernière modification par Bougron (Le 29/11/2016, à 19:48)

Hors ligne