#26 Le 31/10/2016, à 21:40
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Bon j'ai réussi à mettre un disque en outdated assez facilement sur un array constituté de 4.
Et ensuite à reconstituer le volume raid avec 4 disques. Ce qui n'aurait pas dû être une exploit. Mais à ce stade, je n'ai pas compris pourquoi cela n'a d'abord pas fonctionné...
Il est à noter que je l'ai fait sans utiliser le mode "create" de mdadm, qui ne serait à utiliser qu'en dernier ressort, car plus de risque de rendre les données irrécupérables.
Donc je reprend dans le calme pour y voir plus clair, et ensuite je vais tenter de le faire avec 2 disques en outdated...
Dernière modification par jamesbad000 (Le 31/10/2016, à 21:47)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#27 Le 01/11/2016, à 15:15
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
/dev/sd[abcd]1
Elle est pas mal celle la. Dommage que je l'ai pas connu plus tôt !
Bon j'ai pu provoquer la mise hors service de 2 partitions / 4 pendant une phase d'écriture, et ré-assemblage sans encombre du raid avec ses 4 disques.
Donc :
1- Réinstallation préalable de mdadm sur le live (cf post plus haut), si tu as redémarré le pc depuis l'autre soir.
sinon : arrêt du raid
sudo mdadm -S /dev/md0
2 - Vérif que tout le monde est là ou on l'attend
sudo lsblk -o SIZE,NAME,FSTYPE,LABEL,MOUNTPOINT
3 - assemblage du raid avec resynchronisation forcée
sudo mdadm -A -v -U resync -f /dev/md0 /dev/sd[abcd]1
4 - voir l'état d'avancement de la reconstruction
sudo mdadm -D /dev/md0 | egrep -i 'state :|Resync Status'
"Resync status" va donner un % de progression, puis quand state est revenu à "clean" disparaitre.
5 - Vérif de l'état du système de fichier
sudo fsck -fn /dev/md0
Ensuite on fait le point (ou avant si tu pense qu'il y a un problème...), y compris sur ce qu'il convient de faire avec le disque qui a des secteurs endommagés.
Dernière modification par jamesbad000 (Le 01/11/2016, à 15:18)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#28 Le 01/11/2016, à 20:31
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Ca fonctionne !!!! Merci !!!!
Alors j'ai fais exactement les commandes que tu m'as indiqué. La dernière indiquait une erreur en boucle :
Group 33635 block(s) in use but group is marked BLOCK_UNINIT
Fix? no
J'ai donc redémarré sur ubuntu serveur.
Impossible de monter le raid, voulez-vous le mode dégrédé... J'ai répondu oui. Là il dit que 4 disques sur 4 sont ok
Ensuite je me suis connecté sur webmin, et dans les RAID il m'indique maintenant :
active, resyncing (10%, 225min)
Visiblement j'ai accès à mes données, j'attends demain pour te dire ce que ça donne et pour sauvegarder mes données.
Encore un grand merci !!!!!!
Dernière modification par piouk03 (Le 01/11/2016, à 20:31)
Hors ligne
#29 Le 02/11/2016, à 08:53
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Hum j'ai du mal m'expliquer, et tu as grillé des étapes.
Car a vu de nez tu n'as pas vérifié au point 4 que la synchro était terminée (il faut relancer la commande pour voir l'évolution du status)
De plus il aurait été utile que j'ai le retour des commandes pour m'assurer que tout est conforme.
Dans tous les cas on en a pas tout à fait fini car la dernière commande indique qu'il y a des problèmes dans le système de fichier. Et il est dans ce cas déconseillé d'utiliser ces disque autrement que depuis le live usb (il ne faut surtout pas écrire dans un système de fichier endommagé). Sous peine de perdre des données...
Dernière modification par jamesbad000 (Le 02/11/2016, à 08:54)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#30 Le 02/11/2016, à 12:35
- piouk03
Re : [Résolu] Problème RAID5 mdadm
A l'étape 4 le système répondait clean à la commande, c'est pour ça que je suis passé à l'étape suivante. Ce qui m'a étonné c'est que j'ai tapé les commandes à la suite... J'ai trouvé que la resynchronisation avait été ULTRA rapide !
Bref pour la suite, j'ai laissé travaillé le serveur la nuit (sans lire ni écrire sur les disques bien-sur), et ce matin il m'indiquait :
active, resyncing (99%, 20250min)
Je me suis dis qu'il était planté et qu'il n'arriverait jamais à se resynchroniser... J'ai donc tenté de sauvegarder quelques données du serveur sur mon PC : le débit était catastrophique pendant environ 20min, puis est passé à 100Mo/sec !
J'ai donc regardé de nouveau webmin le statut du RAID est maintenant sur : clean !
J'ai commencé de lancer mes sauvegardes... Les fichiers ne sont pas corrompus et fonctionnent très bien pour ceux que j'ai testé. Je termine ça tranquillement ce soir. Et demain après le boulot je tente un redémarrage pour voir ce que ça donne et je te tiens informé.
Dans tous les cas je pense plus sage de tout sauvegarder ailleurs, de changer le disque avec les secteurs HS, de tout reformater et de repartir sur une base seine... Qu'en penses-tu ?
Hors ligne
#31 Le 02/11/2016, à 13:33
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonjour
Comme vous-vous en doutez, je suivais
Il m'a semblé que cette action n'avait pas été faite
sudo fsck -fn /dev/md0
Après cette action tu referas aussi un smartctl du disque SDB pour savoir ce que sont devenus les 85 secteurs illisibles après la reconstruction.
sudo smartctl -A /dev/sdb
Je suis quasiment certain que jamesbond000 va te trouver la codification qui va permettre de réécrire ces secteurs à partir des secteurs 'doubles", puisque maintenant le RAID est opérationnel. Après cette opération le disque apparaîtra neuf.
Comme de plus la mécanique est bonne, il me semble inutile de changer le disque.
== J'ai trouvé cette option --examine-badblocks cela doit certainement être réutilisé quelque part.
Sinon solution que tu viens de pratiquer.
tu formates ce disque sdb et tu reconstruis le raids.
Il n'est pas interdit de sauver les 4 To de données ailleurs. Opération qui est en cours.
Dernière modification par Bougron (Le 02/11/2016, à 23:31)
Hors ligne
#32 Le 02/11/2016, à 13:41
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bougron a écrit :(ce qui arrivera si a un moment donné ils peuvent être lu correctement)
Ou recevoir un ordre d'écriture sans lecture?Effectivement. Mais ce n'est pas quelque chose qui se fait naturellement. Pour une raison qui m'échappe encore, toute écriture (même avec dd) est précédée d'un lecture.
Il y a cependant une commande (dont le nom m'échappe à cet instant) qui permet de le faire...
Bonjour
Je ne sais pas si tu pensais à cela
$ hdparm –read-sector 1261069669 /dev/sdb
/dev/sdb: Input/Output error
$ hdparm –write-sector 1261069669 /dev/sdb
Use of –write-sector is VERY DANGEROUS.
You are trying to deliberately overwrite a low-level sector on the media
This is a BAD idea, and can easily result in total data loss.
Please supply the –yes-i-know-what-i-am-doing flag if you really want this.
Program aborted.
$ hdparm –write-sector 1261069669 –yes-i-know-what-i-am-doing /dev/sdb
/dev/sdb: re-writing sector 1261069669: succeeded
Mais je pense que la commande dd en écriture fonctionne très bien. Dans ce contexte, il faut s'assurer que la taille du secteur logique indiquée a été forcée à la taille du secteur physique.
Si le secteur physique est 4096, comme le secteur logique est 512, il y a obligatoirement une relecture qui est impossible.
mais si on fait une taille logique de 4096, il n'y a pas de raison que cela ne fonctionne pas.
Ajout
J'entreprends une opération badblocks avec un RAID1.......
Je vais voir si je peux éviter le formatage de la partition
Pour le moment j'ai lancé DDrescue pour voir s'il y avait des secteurs illisibles, Il en trouve suffisamment pour que je continue.
Dernière modification par Bougron (Le 03/11/2016, à 01:45)
Hors ligne
#33 Le 02/11/2016, à 23:21
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Bref pour la suite, j'ai laissé travaillé le serveur la nuit (sans lire ni écrire sur les disques bien-sur)
A partir du moment ou tu a démarré un os sur ce disque il y a eu des écritures avec des allocations. (des fichiers créés dans /tmp...)
Si la table qui indique les emplacements libre dans le système de fichier n'est pas à jour (ce qui est fréquent après une déconnexion inopinée des disque pendant l'écriture), il y a risque d'aller écrire les données d'un fichier là ou il y a déjà celle d'un autre.
Quant à mettre la main dessus en ouvrant qq fichier au hasard, parmi des milliers voit des centaines de milliers...
Bref faire une sauvegarde était une bonne idée. Mais le faire à partir du live usb aurait été préférable.
Dans tous les cas je pense plus sage de tout sauvegarder ailleurs, de changer le disque avec les secteurs HS, de tout reformater et de repartir sur une base seine... Qu'en penses-tu ?
Moi, pour des données auxquelles je tiens, je n'ai jamais moins de 2 exemplaires sur des support séparés.
Et ce n'est pas la peine d'avoir du raid si c'est pour ne pas profiter de sa capacité à pouvoir changer un disque sans effacer les données.
Aux passage j'ajoute, que le raid n'est pas une solution de sauvegarde. (Une surtension peut parfaitement dégommer plusieurs disques d'un coups).
c'est une solution de haute disponibilité (Réduis ou annule le temps d'indisponibilité des données en cas de panne d'un seul disque)
Mais je pense que la commande dd en écriture fonctionne très bien. Dans ce contexte, il faut s'assurer que la taille du secteur logique indiquée a été forcée à la taille du secteur physique.
Si le secteur physique est 4096, comme le secteur logique est 512, il y a obligatoirement une relecture qui est impossible.
mais si on fait une taille logique de 4096, il n'y a pas de raison que cela ne fonctionne pas.
L'idée des secteurs physique / logique de taille différente est bonne. Pour tout dire je n'y avais pas pensé.
Mais il se trouve que le disque sur lequel j'ai rencontré ce problème a des secteurs logiques / physique de taille identique. (512)
Dernière modification par jamesbad000 (Le 02/11/2016, à 23:22)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#34 Le 03/11/2016, à 10:18
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bougron a écrit :Mais je pense que la commande dd en écriture fonctionne très bien. Dans ce contexte, il faut s'assurer que la taille du secteur logique indiquée a été forcée à la taille du secteur physique.
Si le secteur physique est 4096, comme le secteur logique est 512, il y a obligatoirement une relecture qui est impossible.
mais si on fait une taille logique de 4096, il n'y a pas de raison que cela ne fonctionne pas.L'idée des secteurs physique / logique de taille différente est bonne. Pour tout dire je n'y avais pas pensé.
Mais il se trouve que le disque sur lequel j'ai rencontré ce problème a des secteurs logiques / physique de taille identique. (512)
Bonjour
J'ai un peu raté ce que je voulais faire. Mais j'ai au moins réussi cette partie.
1) Le disque en question qui est assez pourri. Voir sa vie ici. La taille du secteur physique est de 512.
disque /dev/sdb: 465,8 GiB, 500106780160 octets, 976771055 secteurs
Unités: sectors of 1 * 512 = 512 octets
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
2) A cet endroit, DDrescue m'a signalé que ce secteur n'était pas lisible. Mais je m' assure par une commande plus habituelle que la transcodification faite et comprise par moi est bonne. C'est le cas
sudo dd if=/dev/sdb bs=512 count=1 skip=49839910
dd: erreur de lecture '/dev/sdb': Erreur d'entrée/sortie
0+0 enregistrements lus
0+0 enregistrements écrits
0 bytes copied, 1,7557 s, 0,0 kB/s
3) On va donc remettre en état ce secteur en écrivant dessus.
Attention au piège de dd
skip veut dire sauter N secteurs puis lire le secteur d'après
seek veuf dire se positionner sur le secteur puis lire le secteur sur lequel on est positionné.
En conséquence, il faut faire plus 1
sudo dd if=/dev/zero of=/dev/sdb bs=512 count=1 seek=49839910
1+0 enregistrements lus
1+0 enregistrements écrits
512 bytes copied, 0,000174671 s, 2,9 MB/s
4) Vérifions que cela bien été réparé en rejouant la commande précédante
sudo dd if=/dev/sdb bs=512 count=1 skip=498399010
U1+0 enregistrements lus
1+0 enregistrements écrits
512 bytes copied, 0,000115771 s, 4,4 MB/s
5) Vérifions que les badbocks n'existent plus.
sudo smartctl -A /dev/sdb |grep Current_Pending_Sector
197 Current_Pending_Sector 0x0032 200 194 000 Old_age Always - 0
Donc opération réussie sans reformatage par écriture de zéros dans la zone.
Ma prochaine étape sera d'identifier le fichier contenu dans cette zone afin de faire une restauration du fichier . tout cela en RAIDS1
Ajout. Hier je pensais avoir une bonne situation pour essayer avec cela comme valeur.
197 Current_Pending_Sector 0x0032 197 194 000 Old_age Always - 318
Mais grosse surprise, La partition sdb1 qui contient les 100% des erreurs qui est marquée commme étant partie d'un raid était une fausse info, car j'avais fais du ménage...
J'ai donc reconstitué le RAIDS et je l'ai populé en y recopiant un C:
Par chance , si on peut, dire, Ce matin il y avait déjà un secteur illisible.
Dernière modification par Bougron (Le 20/11/2016, à 09:36)
Hors ligne
#35 Le 03/11/2016, à 13:21
- piouk03
Re : [Résolu] Problème RAID5 mdadm
A partir du moment ou tu a démarré un os sur ce disque il y a eu des écritures avec des allocations. (des fichiers créés dans /tmp...)
Si la table qui indique les emplacements libre dans le système de fichier n'est pas à jour (ce qui est fréquent après une déconnexion inopinée des disque pendant l'écriture), il y a risque d'aller écrire les données d'un fichier là ou il y a déjà celle d'un autre.
Quant à mettre la main dessus en ouvrant qq fichier au hasard, parmi des milliers voit des centaines de milliers...
Effectivement dans ce cas j'ai été trop vite... De plus, en apparence tout fonctionne correctement : mon serveur démarre maintenant sans erreur, j'ai sauvegardé toutes mes données (après à voir à l'utilisation si des fichiers sont corrompus, car effectivement je ne peux tous les contrôler)
Mais ce matin j'ai voulus voir s'il y avait toujours ce problème de forte chute de débit lors d'une première copie après démarrage du serveur. Sur mon PC la copie se passe bien...
Qu'en pensez-vous et que dois-je faire maintenant ?
Dois-je faire
sudo fsck -fn /dev/md0
et
sudo smartctl -A /dev/sdb
?
Modération : merci d'utiliser des images de petite taille (300x300) ou des miniatures pointant sur ces images (Des hébergeurs comme Toile Libre ou TDCT'Pix le permettent).
Dernière modification par piouk03 (Le 20/12/2016, à 12:11)
Hors ligne
#36 Le 03/11/2016, à 14:34
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonjour
Des pistes
Je recherche sur internet avec l'expression qui semble être la mieux dans cette boucle.
j'ai retenu "Failed commande write fpdma queud". Je vais avoir une semaine de lecture
Pourquoi seulement un smartclt sur SDB? Dans cette partie de trace, je ne sais pas identifier la lettre donc
sudo smartctl -a /dev/sda
sudo smartctl -a /dev/sdb
sudo smartctl -a /dev/sdc
sudo smartctl -a /dev/sdd
donc 4 commandes , ce qui donnent 4 retours à ne pas regrouper afin de retrouver la sortie de chaque disque d'une façon plus aisée.
et j'ai remis l'option -a au lieu de l'option -A car elle trace les erreurs d'entrée-sortie.
Je dirais que lorsqu'un disque va physiquement mal, il ne faut plus se précipiter pour lancer un fsck qui de toutes façon nécessite que le raids soit à l'arrêt.
Dernière modification par Bougron (Le 03/11/2016, à 14:35)
Hors ligne
#37 Le 04/11/2016, à 17:52
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Désolé pour la réponse tardive, un peu débordé par le boulot...
Alors j'ai redémarré l’ensemble avec le CD live. Voici le résultat des 4 commandes :
ubuntu@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD20EZRX-00D8PB0
Serial Number: WD-WCC4N1077118
LU WWN Device Id: 5 0014ee 20a25d9cb
Firmware Version: 80.00A80
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri Nov 4 16:42:47 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (28680) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 289) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 185 173 021 Pre-fail Always - 5750
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 418
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 789
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 417
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 128
193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 11184
194 Temperature_Celsius 0x0022 127 111 000 Old_age Always - 23
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ubuntu@ubuntu:~$ sudo smartctl -a /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD20EZRX-00D8PB0
Serial Number: WD-WCC4N1174214
LU WWN Device Id: 5 0014ee 20a2352f9
Firmware Version: 80.00A80
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri Nov 4 16:45:15 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (25140) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 254) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 197 197 051 Pre-fail Always - 8921
3 Spin_Up_Time 0x0027 184 175 021 Pre-fail Always - 5758
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 411
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 784
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 410
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 123
193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 10216
194 Temperature_Celsius 0x0022 126 114 000 Old_age Always - 24
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 83
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 22
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 196 196 000 Old_age Offline - 1311
SMART Error Log Version: 1
ATA Error Count: 9 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 9 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 45 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 45 00 00 00 a0 0a 00:54:09.032 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:54:09.008 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:54:03.928 IDENTIFY DEVICE
ef 03 45 00 00 00 a0 0a 00:54:03.921 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:54:03.857 IDENTIFY DEVICE
Error 8 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 45 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 45 00 00 00 a0 0a 00:54:03.921 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:54:03.857 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:58.753 IDENTIFY DEVICE
ef 03 45 00 00 00 a0 0a 00:53:58.746 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:58.705 IDENTIFY DEVICE
Error 7 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 45 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 45 00 00 00 a0 0a 00:53:58.746 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:58.705 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:29.465 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 0a 00:53:29.457 SET FEATURES [Set transfer mode]
Error 6 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 46 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 46 00 00 00 a0 0a 00:53:29.457 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:29.444 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:29.433 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 0a 00:53:29.425 SET FEATURES [Set transfer mode]
Error 5 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
04 61 46 00 00 00 a0 Device Fault; Error: ABRT
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ef 03 46 00 00 00 a0 0a 00:53:29.425 SET FEATURES [Set transfer mode]
ec 00 00 00 00 00 a0 0a 00:53:29.409 IDENTIFY DEVICE
ec 00 00 00 00 00 a0 0a 00:53:29.401 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 0a 00:53:29.393 SET FEATURES [Set transfer mode]
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ubuntu@ubuntu:~$ sudo smartctl -a /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD20EZRX-00D8PB0
Serial Number: WD-WCC4M2859957
LU WWN Device Id: 5 0014ee 25f7b3e08
Firmware Version: 80.00A80
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri Nov 4 16:45:53 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (26880) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 271) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 175 170 021 Pre-fail Always - 4208
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 413
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 799
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 412
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 125
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 5043
194 Temperature_Celsius 0x0022 123 110 000 Old_age Always - 24
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ubuntu@ubuntu:~$ sudo smartctl -a /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-31-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD20EZRX-00D8PB0
Serial Number: WD-WCC4M2859922
LU WWN Device Id: 5 0014ee 25f7b9dcd
Firmware Version: 80.00A80
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Fri Nov 4 16:47:09 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (26760) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 270) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x7035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 175 170 021 Pre-fail Always - 4225
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 411
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 799
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 410
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 122
193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 11129
194 Temperature_Celsius 0x0022 123 110 000 Old_age Always - 24
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Hors ligne
#38 Le 04/11/2016, à 19:04
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonsoir
Si tu as regardé le rapport, tu as constaté que les disques sont restés en bon état y compris SDB.
Ton message ( http://fonteniaud.fr/serveur.jpg ) est certainement lié a un autre problème S'il n'est pas récurent... il ne faut pas s'inquiéter.
Dernière modification par Bougron (Le 04/11/2016, à 19:05)
Hors ligne
#39 Le 04/11/2016, à 19:52
- bruno
Re : [Résolu] Problème RAID5 mdadm
Bonsoir,
Contrairement à Bougron je pense que le disque correspondant à sdb n'est pas en bon état et doit être remplacé. La sortie de smartctl montre bien que ce disque présente de nombreuses erreurs.
#40 Le 04/11/2016, à 21:28
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Mouais, le Raw_Read_Error_Rate de sdb a augmenté de plus de 10%, par rapport à l'analyse précédente, alors qu'il est toujours à 0 sur les autres disques (ce qui donne une bonne référence)
Le plus étrange est que le nombre de secteur en attente à diminué de 2 sans qu'il y ait eu de réallocation...
Ton problème de message au démarrage, je le laisse de coté, en l'absence de dysfonctionnement visible. Il est tout à fait probable qu'il s'agisse d'un léger défaut de prise en charge / reconnaissance d'un aspect matériel. Sans que ça porte forcément à conséquence.
De toute façon je n'ai pas le brevet de plongée dans les profondeurs du kernel...
Je reviens pour la suite : On va sortir sdb du raid, et s'attaquer à la réparation du système de fichier.
En attendant, je veux bien voir quelle tête ça a maintenant que le raid fonctionne :
(après réinstallation de mdadm sur le live...)
sudo mdadm -A -v /dev/md0 /dev/sd[abcd]1
sudo lsblk -o SIZE,NAME,FSTYPE,LABEL,MOUNTPOINT
Dernière modification par jamesbad000 (Le 05/11/2016, à 00:18)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#41 Le 04/11/2016, à 22:16
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonsoir,
Je ne suis pas d'accord dans les conclusions très alarmistes.
Que connaît-on de ce disque: Le nombre de secteurs : à calculer 2 To /4Ko soit 500 000 000
Combien de secteurs abîmés
=== 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 83
soi un pourcentage assez faible de 0,0000166%l
Je dirais bêtement qu'on va encore en découvrir 2. Il n'y a pas de raison qu'il y en ait moins à terme
Ce compteur a été réinitialisé lors de la reconstruction du RAID.
Donc, lorsqu'on tombe sur un de ces secteurs, il faut enfin utiliser le RAID (car il ne sert qu'à cela) pour trouver son double.
Quelle est le risque de ne pas le trouver 0% car aucun des trois autres disques n'a de secteurs usés.
Reste ce problème
1 Raw_Read_Error_Rate 0x002f 197 197 051 Pre-fail Always - 8921
J'ai vu des valeurs bien pire
Dernière modification par Bougron (Le 04/11/2016, à 22:27)
Hors ligne
#42 Le 04/11/2016, à 23:00
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Je vais mettre tout le monde d'accord. Je n'ai aucun avis définitif sur l'avenir de ce disque. Mais en tout cas, il a un problème et cela ne doit pas rester en l'état.
Par contre j'ai une certitude. Les compteurs SMART sont gérés par le firmware du disque et stockés en interne. Et le raid n'a aucune capacité d'influence sur ceux-ci.
J'ai vu des valeurs bien pire
Je le redis. Les valeurs de ce genre de compteurs nécessitent une interprétation selon les spécifications du constructeur. Donc comparer avec un disque quelconque est dénué de sens. En revanche on a 3 disques témoins de même modèle qui donnent une référence. Et la la référence étant à 0, il a y suspicion légitime.
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#43 Le 04/11/2016, à 23:21
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonsoir
Cela tombe bien, je trouve cet article intéressant à lire à propos du code 193 qui est très important pour les 4 disques.
https://www.gamingonlinux.com/articles/ … 814/page=4
[url][modéré : pas d’auto-pub, merci]-calmer-cycles-de-chargement-tetes-disques-wd/[/url]
http://linuxfr.org/users/benoar/journau … mee-ou-pas
et qui pourrait expliquer le ralentissement constaté par moment.
Si moko138 passe dans le coin, il en connaît un rayon sur ce problème de têtes parquées.
A noter qu'il me semble que c'est lorsque la valeur 300000 sera atteinte que "failing Now" sera affiché.
Si le disque continue d'être utilisé de cette façon
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 784
193 Load_Cycle_Count 0x0032 197 197 000 Old_age Always - 10216
Cela sera au bout de 23023 heures de fonctionnement. Soit donc dans 2,5 années de fonctionnement non-stop.
Cela voudrait donc dire qu'il en est à 29,36% de durée de vie estimée.
Ce fut un peu long à trouver car il semble que le vrai problème est celui ci-dessus,
Sinon le premier qui montre que la valeur actuelle peut encore augmenter
https://askubuntu.com/questions/683154/ … ts-on-boot
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green (AF, SATA 6Gb/s)
Device Model: WDC WD20EARX-00PASB0
Serial Number: WD-WMAZA5292120
LU WWN Device Id: 5 0014ee 0ad758dc6
Firmware Version: 51.0AB51
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sun Oct 18 20:32:04 2015 BST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
.......
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 192 192 051 Pre-fail Always - 266801
3 Spin_Up_Time 0x0027 175 166 021 Pre-fail Always - 6250
4 Start_Stop_Count 0x0032 098 098 000 Old_age Always - 2539
5 Reallocated_Sector_Ct 0x0033 196 196 140 Pre-fail Always - 76
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 056 056 000 Old_age Always - 32843
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 139
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 118
193 Load_Cycle_Count 0x0032 174 174 000 Old_age Always - 78691
194 Temperature_Celsius 0x0022 118 107 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 150 150 000 Old_age Always - 50
197 Current_Pending_Sector 0x0032 197 197 000 Old_age Always - 1061
198 Offline_Uncorrectable 0x0030 197 197 000 Old_age Offline - 1023
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 150 143 000 Old_age Offline - 13350
Ainsi que le second cas http://sigtar.com/2014/10/30/unraid-smart-check/ pas du même modèle mais qui a cessé de fonctionné car limite atteinte pour l'événement 5
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green
Device Model: WDC WD10EADS-00M2B0
Serial Number: WD-WCAV51020991
LU WWN Device Id: 5 0014ee 2588170a5
Firmware Version: 01.00A01
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
............
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 168 154 051 Pre-fail Always – 12560032
3 Spin_Up_Time 0x0027 149 105 021 Pre-fail Always – 5508
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always – 1253
5 Reallocated_Sector_Ct 0x0033 119 119 140 Pre-fail Always FAILING_NOW 648
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always – 0
9 Power_On_Hours 0x0032 041 041 000 Old_age Always – 43079
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always – 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always – 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always – 371
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always – 363
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always – 1932037
194 Temperature_Celsius 0x0022 118 076 000 Old_age Always – 29
196 Reallocated_Event_Count 0x0032 001 001 000 Old_age Always – 463
197 Current_Pending_Sector 0x0032 199 193 000 Old_age Always – 323
198 Offline_Uncorrectable 0x0030 199 190 000 Old_age Offline – 186
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always – 0
200 Multi_Zone_Error_Rate 0x0008 003 001 000 Old_age Offline – 39455
SMART Error Log Version: 1
No Errors Logged
Un avis qui n'engage que moi.
1) Je suis simplement en train de commencer à fabriquer des RAIDS. Le but que je veux réaliser en installant un RAIDS est de me prémunir du fameux incident "FAILING_NOW" qui exige d'agir très rapidement si on n'est pas en RAIDS mais d'avoir tout le temps nécessaire (inconnu ) en RAIDS. En fait il faut avoir fini le remplacement du disque avant que l'autre disque ramasse aussi ce type d'incident. Ce qui est par nature imprévisible bien qu'on puisse détecter des signes avant-coureurs.
2) Il me ne semble pas sain d'avoir le même modèle de disques dans un RAIDS car chaque constructeur a fabriqué des disques du même modèle avec la même fiabilité. Ce qui veut dire que si un disque devient HS, les autres vont le devenir très rapidement. Mais cela aussi être un avantage: Un remplacement systématique de la totalité au premier incident au lieu d'un remplacement au coup par coup tous les 3 ou 6 mois.
3) Ce n'est pas parce qu'un RAIDS n'utilise que la capacité du plus petit disque qu'il faut avoir des disques de même taille. Dans ton exemple, tu avais deux disques de 2 TO: Tu as failli acheter 2 disques de 3 To.
Si tu l'avais fais, tu aurais pu avec ces deux disques neufs:
1) Prendre les deux premiers To pour les mettre en RAIDS avec les deux anciens disques.
2) Utiliser les 1 To restants pour les assembler en RAIDS0 et se servir de ce RAIDS0 pour sauvegarder les données du RAID5.
4) Je ne suis pas sur qu'un simple particulier doive faire un RAIDS compliqué.
Il est possible d'un RAID1 de 2 To et un autre RAIDS1 de 2 TO soit aussi pratique à gérer qu'un RAID5 de 2TO.
Au moins si un RAIDS ne fonctionne plus, on dispose encore de l'autre. de plus DDrescue est alors utilisable si les deux disques deviennent HS. (Hors panne tête de lecture).
Dans ce contexte tout dépend des applications et du besoin de disposer réellement de 2 To en ligne à tout moment.
5) Il n'est pas sur que formater un RAIDS en EXT4 soit la meilleure solution. Je me suis laissé dire qu'un formatage en BTRFS était plus tolérant aux secteurs illisibles... Je pense malgré tout qu'il a d'autre inconvénients qu'il me reste à découvrir.
6) Il me semble avoir compris que maintenant le systemeRAIDS ext4 a ajouté une petite couche pour prendre à sa charge la gestion des blocs défectueux.
Je ne sais pas du tout ce que cela peut donner dans un contexte qui a des blocs défectueux.
Peux tu donner le retour de la commande
sudo mdadm --examine-badblocks /dev/sdb1
7) Une remarque qui n'a rien à voir avec le RAIDS. Je ne trouve pas normal d'avoir dans une même partition un OS et des données utilisateurs. Un OS ne mérite pas d''être installé dans une partition RAIDS sauf pour les serveurs devant tourner 24 heures sur 24.
Dernière modification par Bougron (Le 05/11/2016, à 10:36)
Hors ligne
#44 Le 05/11/2016, à 10:59
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Merci pour toutes vos réponses et désolé de ne pas être super réactif. Alors pour commencer, jamesbad000 voici le résultat de la commande que tu m'as demandé :
ubuntu@ubuntu:~$ sudo lsblk -o SIZE,NAME,FSTYPE,LABEL,MOUNTPOINT
SIZE NAME FSTYPE LABEL MOUNTPOINT
1.8T sda
1.8T └─sda1 linux_raid_member server:0
5.5T └─md0 ext4
1.8T sdb
1.8T └─sdb1 linux_raid_member server:0
5.5T └─md0 ext4
1.8T sdc
1.8T └─sdc1 linux_raid_member server:0
5.5T └─md0 ext4
1.8T sdd
1.8T └─sdd1 linux_raid_member server:0
5.5T └─md0 ext4
7.2G sde iso9660 Ubuntu 16.04.1 LTS amd64 /cdrom
1.4G ├─sde1 iso9660 Ubuntu 16.04.1 LTS amd64
2.3M └─sde2 vfat Ubuntu 16.04.1 LTS amd64
1.4G loop0 squashfs /rofs
Ensuite pour le débat du disque HS où non je vous fais entière confiance car je suis incapable de savoir s'il est bon ou non à changer. Par contre Bourgnon ta réflexion sur les disques de même taille et même marque me plaît, je n'y avait pas réfléchi. Je pensais racheter exactement le même disque si vous pensiez qu'il était HS, mais en effet un disque d'un autre marque parait judicieux.
Par contre pour ton montage avec 2 RAIDS dans le serveur, c'est un peu complexe à mon goût je voulais quand même rester sur un montage simple.
Et pour finir le système n'est pas du tout sur le RAID, il est sur un disque à part...bon vous aller me luncher, il est même sur un clé USB : j'ai une image de mon installation et une clé d'avance. En cas de plantage du système je peux le remettre sur pied en 10min. L'installation du système sur clé à été un grand débat quand j'ai monté mon premier serveur, beaucoup de personne donnaient un temps de vie de moins d'un an à la clé, or le premier installé il y a 3 ans fonctionne toujours sur la même clé.
Et pour finir voici le retour de la commande que tu m'as demandé :
ubuntu@ubuntu:~$ sudo mdadm --examine-badblocks /dev/sdb1
No bad-blocks list configured on /dev/sdb1
Quand j'ai monté les serveurs j'ai fais un tuto en même temps, déjà pour moi (histoire de pouvoir le refaire) et je voulais le mettre en partage pour aider d'autres personnes à se monter un serveur facilement. Comme mes serveurs avaient un problème de débit au premier chargement je me suis dit que mon tuto avait peut être une erreur je ne l'ai donc jamais partagé... Est-ce que ça vous intéresse que je pose un lien pour que vous y jetiez un œil, et qu'éventuellement on le partage si ça peut aider du monde ?
Hors ligne
#45 Le 05/11/2016, à 11:57
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Et pour finir le système n'est pas du tout sur le RAID, il est sur un disque à part...bon vous aller me luncher, il est même sur un clé USB : j'ai une image de mon installation et une clé d'avance. En cas de plantage du système je peux le remettre sur pied en 10min. L'installation du système sur clé à été un grand débat quand j'ai monté mon premier serveur, beaucoup de personne donnaient un temps de vie de moins d'un an à la clé, or le premier installé il y a 3 ans fonctionne toujours sur la même clé.
Pourquoi, veux-tu qu'on te lynche
Dans ce document https://doc.ubuntu-fr.org/tutoriel/inst … disque_usb
je suis l'auteur de "Je contredis cette remarque pour sept raisons".
Tu peux donc ajouter une huitieme raison.
Je suis actuellement en phase d'apprentissage du RAIDS, Et j'en ai installé quelques uns sur une clé USB afin de les balader d'un ordinateur à un autre
sudo fdisk -l |grep sdd
Disque /dev/sdd : 57,6 GiB, 61872793600 octets, 120845300 secteurs
/dev/sdd1 * 2048 3278847 3276800 1,6G b W95 FAT32
/dev/sdd2 3483648 20260863 16777216 8G 83 Linux
/dev/sdd3 3278848 3483647 204800 100M b W95 FAT32
/dev/sdd4 20260864 120844287 100583424 48G 5 Étendue
/dev/sdd5 20262912 28651519 8388608 4G 83 Linux
/dev/sdd6 28653568 37042175 8388608 4G 83 Linux
/dev/sdd7 37044224 41238527 4194304 2G b W95 FAT32
/dev/sdd8 41240576 45434879 4194304 2G b W95 FAT32
/dev/sdd9 45436928 47534079 2097152 1G 83 Linux
/dev/sdd10 47536128 49633279 2097152 1G 83 Linux
/dev/sdd11 49635328 51732479 2097152 1G 83 Linux
/dev/sdd12 51734528 53831679 2097152 1G 83 Linux
bougron@DynaMips:~$
sudo mdadm --detail /dev/md12*[0-9]
/dev/md122:
Version : 1.2
Creation Time : Thu Oct 6 12:53:57 2016
Raid Level : raid1
Array Size : 1047552 (1023.17 MiB 1072.69 MB)
Used Dev Size : 1047552 (1023.17 MiB 1072.69 MB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Sat Nov 5 11:33:14 2016
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : DynaMips:13 (local to host DynaMips)
UUID : bd5c5e13:e4e87bdf:5e09af94:c7da1478
Events : 29
Number Major Minor RaidDevice State
0 8 59 0 active sync /dev/sdd11
1 8 60 1 active sync /dev/sdd12
/dev/md123:
Version : 1.2
Creation Time : Thu Oct 6 12:55:11 2016
Raid Level : raid1
Array Size : 1047552 (1023.17 MiB 1072.69 MB)
Used Dev Size : 1047552 (1023.17 MiB 1072.69 MB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Sat Nov 5 09:13:52 2016
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : DynaMips:12 (local to host DynaMips)
UUID : 7a9f310e:394385aa:5088c5e7:e252da42
Events : 25
Number Major Minor RaidDevice State
0 8 57 0 active sync /dev/sdd9
1 8 58 1 active sync /dev/sdd10
/dev/md124:
Version : 1.2
Creation Time : Thu Oct 6 12:52:32 2016
Raid Level : raid1
Array Size : 2095104 (2046.34 MiB 2145.39 MB)
Used Dev Size : 2095104 (2046.34 MiB 2145.39 MB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Sat Nov 5 09:13:52 2016
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : DynaMips:11 (local to host DynaMips)
UUID : 0cd85953:c1adcd98:419cb67e:c614fa96
Events : 23
Number Major Minor RaidDevice State
0 8 55 0 active sync /dev/sdd7
1 8 56 1 active sync /dev/sdd8
/dev/md125:
Version : 1.2
Creation Time : Thu Oct 6 12:45:01 2016
Raid Level : raid1
Array Size : 4190208 (4.00 GiB 4.29 GB)
Used Dev Size : 4190208 (4.00 GiB 4.29 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Sat Nov 5 09:13:52 2016
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : DynaMips:10 (local to host DynaMips)
UUID : cae2922f:06a32087:5f848f19:a8a2869c
Events : 25
Number Major Minor RaidDevice State
0 8 53 0 active sync /dev/sdd5
1 8 54 1 active sync /dev/sdd6
/dev/md126:
Version : 1.2
Raid Level : raid0
Total Devices : 1
Persistence : Superblock is persistent
State : inactive
Name : DynaMips:4 (local to host DynaMips)
UUID : 1e7ac116:f48d11b7:a5a02fd3:841250d9
Events : 14
Number Major Minor RaidDevice
- 259 6 - /dev/sdc22
/dev/md127:
Version : 1.2
Creation Time : Thu Nov 3 02:58:20 2016
Raid Level : raid1
Array Size : 20955136 (19.98 GiB 21.46 GB)
Used Dev Size : 20955136 (19.98 GiB 21.46 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Update Time : Sat Nov 5 09:13:51 2016
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Name : DynaMips:1 (local to host DynaMips)
UUID : ef598bfe:d720bfb4:803dc9b7:01c1e373
Events : 27
Number Major Minor RaidDevice State
0 8 17 0 active sync /dev/sdb1
1 259 0 1 active sync /dev/sdc16
bougron@DynaMips:~$
Pour le MD127 qui a une partition /dev/sdb1. C'est la partition qui est au début de ce disque usagé
Notes cependant que ce n'est pas un serveur mais mais un ordinateur personnel....
Comme je suis content d'avoir trouver sur le net une commande qui résume bien , je la ressort!
sudo mdadm --detail /dev/md12*[0-9] | egrep 'dev|Update|Role|State'
/dev/md122:
Update Time : Sat Nov 5 11:33:14 2016
State : clean
Number Major Minor RaidDevice State
0 8 59 0 active sync /dev/sdd11
1 8 60 1 active sync /dev/sdd12
/dev/md123:
Update Time : Sat Nov 5 09:13:52 2016
State : clean
Number Major Minor RaidDevice State
0 8 57 0 active sync /dev/sdd9
1 8 58 1 active sync /dev/sdd10
/dev/md124:
Update Time : Sat Nov 5 09:13:52 2016
State : clean
Number Major Minor RaidDevice State
0 8 55 0 active sync /dev/sdd7
1 8 56 1 active sync /dev/sdd8
/dev/md125:
Update Time : Sat Nov 5 09:13:52 2016
State : clean
Number Major Minor RaidDevice State
0 8 53 0 active sync /dev/sdd5
1 8 54 1 active sync /dev/sdd6
/dev/md126:
State : inactive
- 259 6 - /dev/sdc22
/dev/md127:
Update Time : Sat Nov 5 09:13:51 2016
State : clean
Number Major Minor RaidDevice State
0 8 17 0 active sync /dev/sdb1
1 259 0 1 active sync /dev/sdc16
bougron@DynaMips:~$
Dernière modification par Bougron (Le 05/11/2016, à 15:03)
Hors ligne
#46 Le 05/11/2016, à 12:30
- piouk03
Re : [Résolu] Problème RAID5 mdadm
Plusieurs personnes m'ont fait la remarque qu'il n'était pas judicieux d'installer le système sur une clé, d'où ma crainte de lunchage, mais visiblement je ne suis pas le seul à faire ça
Du coup je fais quoi avec mon RAID ?
Hors ligne
#47 Le 05/11/2016, à 13:38
- Bougron
Re : [Résolu] Problème RAID5 mdadm
Bonjour Jamesbond000
Je suis en train de rechercher sur internet des disques du même modèle avec le même firmware ayant des ennuis divers.
Avoir une valeur différente de zéro pour le compteur 1 semble très dur.
Je viens de tomber sur cet exemple
=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Green (AF)
Device Model: WDC WD20EARS-00J2GB0
Serial Number: WD-WCAYY0047616
LU WWN Device Id: 5 0014ee 2af1a8e7e
Firmware Version: 80.00A80
User Capacity: 2,000,398,934,016 bytes [2.00 TB]
Sector Size: 512 bytes logical/physical
.....
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 168 161 021 Pre-fail Always - 8575
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 30
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 034 034 000 Old_age Always - 48673
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 28
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 27
193 Load_Cycle_Count 0x0032 180 180 000 Old_age Always - 60927
194 Temperature_Celsius 0x0022 122 094 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
Et au moment où je désespérais, je trouve cette discussion Bien que cela ne soit pas le même modèle, c'est quand même assez proche (3To au lieu de 2 To) https://forum.hddguru.com/viewtopic.php?f=1&t=28091
Mais je vois pas de cause pour l'arrêt du fonctionnement du disque. Hypothèse son firmware???
Je note simplement que dès le départ, il n'allait pas très bien. Un peu comme ce disque SDB
En revanche, pour ce cas, c'est très parlant. On connaît les valeurs atteintes pour un disque de 3 To, pour 2 TO, cela ne peut pas être plus.
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 8587
5 Reallocated_Sector_Ct 0x0033 140 140 140 Pre-fail Always FAILING_NOW 1763
et pour un autre mais toujours dans la catégorie des 3 To
=== START OF INFORMATION SECTION ===
Device Model: WDC WD30EZRX-00D8PB0
Serial Number: WD-WMC4N0L59DUV
Firmware Version: 80.00A80
User Capacity: 3,000,592,982,016 bytes
.........
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 157 157 051 Pre-fail Always - 50479
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 2
9 Power_On_Hours 0x0032 099 099 000 Old_age Always - 861
196 Reallocated_Event_Count 0x0032 198 198 000 Old_age Always - 2
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 94
Et un autre cas où cela a cassé C'est encore un 3 To. A croire que tu as eu le nez fin en ne prenant pas la version 3 To !!!!!!!!!!
1 Raw_Read_Error_Rate 0x002f 194 194 051 Pre-fail Always - 3162
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 64
5 Reallocated_Sector_Ct 0x0033 133 133 140 Pre-fail Always FAILING_NOW 943
9 Power_On_Hours 0x0032 065 065 000 Old_age Always - 26275
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1204884
196 Reallocated_Event_Count 0x0032 001 001 000 Old_age Always - 631
197 Current_Pending_Sector 0x0032 199 199 000 Old_age Always - 896
200 Multi_Zone_Error_Rate 0x0008 158 153 000 Old_age Offline - 12877
Dernière modification par Bougron (Le 05/11/2016, à 14:38)
Hors ligne
#48 Le 05/11/2016, à 14:15
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Bonjour.
Juste pour s'assurer avant que le disque que l'on veut retirer est toujours bien en sdb
sudo ls -l /dev/disk/by-id/ | grep WD-WCC4N1174214
il doit apparaitre ça sur la première ligne
WD-WCC4N1174214 -> ../../sdb
ensuite retirer le disque du raid, puis réparation du système de fichier:
sudo mdadm /dev/md0 --fail /dev/sdb1 --remove /dev/sdb1
sudo fsck -fy /dev/md0
On verra en dernier lieu comment procéder à l'analyse de ce disque douteux
edit corrigé --remove /dev/loop1 en --remove /dev/sdb1
Dernière modification par jamesbad000 (Le 05/11/2016, à 14:17)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne
#49 Le 05/11/2016, à 15:57
- piouk03
Re : [Résolu] Problème RAID5 mdadm
jamesbad000 j'ai lancé tes commandes voici le résultat :
ubuntu@ubuntu:~$ sudo fsck -fy /dev/md0
fsck from util-linux 2.27.1
e2fsck 1.42.13 (17-May-2015)
Pass 1: Checking inodes, blocks, and sizes
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
/lost+found not found. Create? yes
Pass 4: Checking reference counts
Pass 5: Checking group summary information
/dev/md0: ***** FILE SYSTEM WAS MODIFIED *****
/dev/md0: 97450/183132160 files (5.0% non-contiguous), 688182582/1465036698 blocks
Effectivement Bougron ces disques n'ont pas l'air d'une grande fiabilité... Moi qui avait pris du WD pour être tranquille ! Vous mettez comme comme DD dans vos serveurs ?
Hors ligne
#50 Le 05/11/2016, à 16:10
- jamesbad000
Re : [Résolu] Problème RAID5 mdadm
Bon le système de fichier est propre. Il est possible qu'il ait été réparé automatiquement lorsque tu as redémarré ton serveur...
Mais j'aurais bien aimé avoir le retour de toutes les commandes. (La première va me donner l'identifiant complet du disque pour la suite des opérations)...
Vous mettez comme comme DD dans vos serveurs ?
Maintenant j'ai un peu de tout. De toute façon, la fabrication de disque c'est vraiment une industrie de pointe, et il n'y a pas vraiment de bricolos dans ce domaines. Après il peut y avoir des loupés sur certaines séries...
Dernière modification par jamesbad000 (Le 05/11/2016, à 16:36)
L'espace et le temps sont les modes par lesquels nous pensons, et non les conditions dans lesquelles nous vivons. (Signé Albert)
Hors ligne