Pages : 1
#1 Le 25/06/2019, à 13:17
- alinthda
[Résolu] Panne sur un Raid 6 (mdadm)
Bonjour a tous,
Hier un des huit disques qui composent mon raid 6 à passé l'arme à gauche. Ce n'est pas la première fois, mais habituellement le raid passe en mode dégradé tout en continuant à fonctionner. Je change le disque et je lance l'assemblage et ça repart.
Cette fois c'est différent. Mdadm ne répond pas avec le disque défaillant en place, impossible de le déclarer hs dans mdadm. Je suis obligé de le retirer pour que mdadm réponde.
Au démarrage du serveur le raid est inactif:
mdadm --detail /dev/md127
/dev/md127:
Version : 1.2
Raid Level : raid0
Total Devices : 7
Persistence : Superblock is persistent
State : inactive
Name : Titan:Stockage (local to host Titan)
UUID : 33ad4720:6c461e7c:309eb705:ccb6e72e
Events : 29388
Number Major Minor RaidDevice
- 8 64 - /dev/sde
- 8 32 - /dev/sdc
- 8 0 - /dev/sda
- 8 112 - /dev/sdh
- 8 80 - /dev/sdf
- 8 48 - /dev/sdd
- 8 16 - /dev/sdb
J'essaye donc de démarrer le raid:
mdadm --run /dev/md127
mdadm: failed to start array /dev/md/Titan:Stockage: Input/output error
Bizarrement si j'insiste en répétant la commande de démarrage le raid s'active:
mdadm --detail /dev/md127
/dev/md127:
Version : 1.2
Creation Time : Fri Apr 17 17:19:42 2015
Raid Level : raid6
Used Dev Size : 1953382912 (1862.89 GiB 2000.26 GB)
Raid Devices : 8
Total Devices : 7
Persistence : Superblock is persistent
Update Time : Tue Jun 25 13:36:38 2019
State : active, degraded, Not Started
Active Devices : 7
Working Devices : 7
Failed Devices : 0
Spare Devices : 0
Layout : left-symmetric
Chunk Size : 512K
Name : Titan:Stockage (local to host Titan)
UUID : 33ad4720:6c461e7c:309eb705:ccb6e72e
Events : 29388
Number Major Minor RaidDevice State
- 0 0 0 removed
1 8 112 1 active sync /dev/sdh
2 8 0 2 active sync /dev/sda
8 8 16 3 active sync /dev/sdb
10 8 48 4 active sync /dev/sdd
9 8 32 5 active sync /dev/sdc
6 8 80 6 active sync /dev/sdf
7 8 64 7 active sync /dev/sde
Je met ensuite un disque neuf et j'essaye de lancer l'assemblage:
mdadm --assemble --force /dev/md127 /dev/sdg
mdadm: no recogniseable superblock on /dev/sdg
mdadm: /dev/sdg has no superblock - assembly aborted
Voila ou j'en suis. Mes connaissances en mdadm sont légères, je ne sais plus comment sauver mon raid.
Merci d'avance pour toute aide
Dernière modification par alinthda (Le 25/06/2019, à 20:39)
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#2 Le 25/06/2019, à 13:49
- Nuliel
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Bonjour,
Tu as vérifié tous les rapports smart des 8 disques? Il n'y a qu'un disque qui est parti en vrille?
Hors ligne
#3 Le 25/06/2019, à 13:55
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
En plus de celui qui à lâché? non les sept autres disques sont fonctionnels
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#4 Le 25/06/2019, à 14:06
- bruno
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Bonjour,
D'abord, ce n'est pas normal que tu soit obligé de lancer plusieurs fois la commande avec --run. Mais bon cela à l'air de fonctionner…
Ensuite, tu as 7 disques actifs identifiés de sda à sdg, la commande pour ajouter le disque manquant devrait donc être porter sur sdh. À vérifier avec parted ou fdisk.
#5 Le 25/06/2019, à 14:30
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Bonjour bruno, je viens d'édité il y avait une erreur les disques actifs sont sd[a,b,c,d,e,f,h]
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#6 Le 25/06/2019, à 14:38
- bruno
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Ok dans ce cas essaie de retirer le disque fautif :
mdadm /dev/md127 --fail /dev/sdg
mdadm /dev/md127 --remove /dev/sdg
Puis le nouveau disque étant branché , vérifie bien qu'il est reconnu comme étant /dev/sdg (avec parted -l ou fdisk -l) et ajoute-le :
mdadm /dev/md127 --add /dev/sdg
#7 Le 25/06/2019, à 14:47
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
J'ai essayé de retirer le disque, le problème étant que si je démarre le serveur avec le disque hs mdadm ne répond à aucune commande, il ne se passe rien le terminal est bloqué.
Ensuite quand je le retire de sa baie et que je démarre le serveur le disque n'est plus identifié:
Number Major Minor RaidDevice State
- 0 0 0 removed
Je n'ai donc aucune lettre pour le marquer défaillant et le retirer proprement
Et quand j'essaye d'ajouter sdg je reçois le message:
root@Titan:~# mdadm /dev/md127 --add /dev/sdg
mdadm: add new device failed for /dev/sdg as 11: Invalid argument
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#8 Le 25/06/2019, à 14:52
- bruno
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Tu as lancé les deux premières commande que j'indiquais ?
Il ne s'agit pas de retirer physiquement le disque mais d'indiquer à mdadm que le disque qui était connu comme sdg ne fait plus partie du RAID.
#9 Le 25/06/2019, à 15:08
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
oui, sans succès
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#10 Le 25/06/2019, à 15:10
- bruno
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Bon, le nouveau disque étant branché et le Raid activé, retours de :
parted -l
mdadm --detail --scan --verbose
cat /proc/mdstat
cat /etc/mdadm/mdadm.conf
#11 Le 25/06/2019, à 15:14
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
je t’envoie ça de suite, pour info je viens de remettre le vieux disque et d'essayer les commandes fail et remove de mdadm. mdadm plante et en branchant un écran sur le serveur un message s'affiche
ata9: softreset failed (1st FIS failed)
j'arrive avec les retours de commande
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#12 Le 25/06/2019, à 15:22
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
root@Titan:~# parted -l
Error: /dev/sda: unrecognised disk label
Model: ATA ST2000DM001-1CH1 (scsi)
Disk /dev/sda: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
Error: /dev/sdb: unrecognised disk label
Model: ATA ST2000DM001-1ER1 (scsi)
Disk /dev/sdb: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
Error: /dev/sdc: unrecognised disk label
Model: ATA ST2000DM006-2DM1 (scsi)
Disk /dev/sdc: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
Error: /dev/sdd: unrecognised disk label
Model: ATA ST2000DM006-2DM1 (scsi)
Disk /dev/sdd: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
Error: /dev/sde: unrecognised disk label
Model: ATA ST2000DM001-1ER1 (scsi)
Disk /dev/sde: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
Error: /dev/sdf: unrecognised disk label
Model: ATA ST2000DM001-1ER1 (scsi)
Disk /dev/sdf: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
Model: Unknown (unknown)
Disk /dev/nvme0n1: 250GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags:
Number Start End Size Type File system Flags
1 1049kB 216GB 216GB primary ext4
2 216GB 250GB 34.3GB extended
5 216GB 250GB 34.3GB logical linux-swap(v1)
Error: /dev/sdg: unrecognised disk label
Model: ATA ST2000DM008-2FR1 (scsi)
Disk /dev/sdg: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
Error: /dev/sdh: unrecognised disk label
Model: ATA ST2000DM001-1CH1 (scsi)
Disk /dev/sdh: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags:
root@Titan:~# mdadm --detail --scan --verbose
ARRAY /dev/md127 level=raid6 num-devices=8 metadata=1.2 spares=1 name=Titan:Stockage UUID=33ad4720:6c461e7c:309eb705:ccb6e72e
devices=/dev/sda,/dev/sdb,/dev/sdc,/dev/sdd,/dev/sde,/dev/sdf,/dev/sdg,/dev/sdh
root@Titan:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md127 : inactive sdh[1] sda[2] sdg[11](S) sdf[6] sde[7] sdd[10] sdc[9] sdb[8]
15627068096 blocks super 1.2
unused devices: <none>
root@Titan:~# cat /etc/mdadm/mdadm.conf
# mdadm.conf
#
# Please refer to mdadm.conf(5) for information about this file.
#
# by default, scan all partitions (/proc/partitions) for MD superblocks.
# alternatively, specify devices to scan, using wildcards if desired.
# Note, if no DEVICE line is present, then "DEVICE partitions" is assumed.
# To avoid the auto-assembly of RAID devices a pattern that CAN'T match is
# used if no RAID devices are configured.
DEVICE partitions
# auto-create devices with Debian standard permissions
CREATE owner=root group=disk mode=0660 auto=yes
# automatically tag new arrays as belonging to the local system
HOMEHOST <system>
# definitions of existing MD arrays
ARRAY /dev/md/Titan:Stockage metadata=1.2 name=Titan:Stockage UUID=33ad4720:6c461e7c:309eb705:ccb6e72e
# instruct the monitoring daemon where to send mail alerts
MAILADDR xxxx.xxxx@xxxx.com
MAILFROM root
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#13 Le 25/06/2019, à 15:43
- bruno
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Tout me semble ok sauf que le RAID n'est pas actif (retour de cat /proc/mdstat), tu dois donc tenter pour l'activer :
mdadm --assemble --scan
#14 Le 25/06/2019, à 15:49
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
sdg (disque neuf) est maintenant vu en spare
root@Titan:~# mdadm --assemble --scan
root@Titan:~# mdadm --detail /dev/md127
/dev/md127:
Version : 1.2
Creation Time : Fri Apr 17 17:19:42 2015
Raid Level : raid6
Used Dev Size : 1953382912 (1862.89 GiB 2000.26 GB)
Raid Devices : 8
Total Devices : 8
Persistence : Superblock is persistent
Update Time : Tue Jun 25 16:12:35 2019
State : active, degraded, Not Started
Active Devices : 7
Working Devices : 8
Failed Devices : 0
Spare Devices : 1
Layout : left-symmetric
Chunk Size : 512K
Name : Titan:Stockage (local to host Titan)
UUID : 33ad4720:6c461e7c:309eb705:ccb6e72e
Events : 29412
Number Major Minor RaidDevice State
- 0 0 0 removed
1 8 112 1 active sync /dev/sdh
2 8 0 2 active sync /dev/sda
8 8 16 3 active sync /dev/sdb
10 8 48 4 active sync /dev/sdd
9 8 32 5 active sync /dev/sdc
6 8 80 6 active sync /dev/sdf
7 8 64 7 active sync /dev/sde
11 8 96 - spare /dev/sdg
root@Titan:~#
Dernière modification par alinthda (Le 25/06/2019, à 15:55)
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#15 Le 25/06/2019, à 16:20
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
alors je viens de tenter:
mdadm --stop /dev/md127
mdadm --assemble --run --force --update=resync /dev/md127 /dev/sda /dev/sdb /dev/sdc /dev/sdd /dev/sde /dev/sdf /dev/sdg /dev/sdh
Alors c'est un peu bourrin mais le raid est en train de se synchroniser, je vais voir dans quelques heures le résultat
Dernière modification par alinthda (Le 25/06/2019, à 16:20)
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#16 Le 25/06/2019, à 16:40
- bruno
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Non c'est pas bourrin, c'est exactement ce que j'allais te proposer en cas d'échec
#17 Le 25/06/2019, à 17:20
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Un énorme merci pour ton aide bruno, cependant je ne comprends pas qu'elle manipulation a fait passé sdg en spare? (pour info le raid est à 40% de reconstruction)
Dernière modification par alinthda (Le 25/06/2019, à 18:02)
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
#18 Le 25/06/2019, à 19:59
- bruno
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Le problème de base vient du fait que tu as redémarré la machine sans avoir retiré le disque fautif (avec mdadm --ffail et --remove. Mais tu ne pouvais peut-être pas faire autrement…
Quand on fait cela les informations sur le disques fautif sont perdues mais il fait toujours partie du RAID (marqué comme removed dans tes retours). Tu as en quelque sorte un disque fantôme.
Lorsque tu as essayé de ré-assembler le Raid en #14 avec le nouveau disque, la commande a été comprise par le système comme l'ajout d'un disque à une grappe qui contenait déjà les 8 disques, dont un disque « fantôme». Le nouveau disque a donc été ajouté comme disque supplémentaire en « spare ».
La seule solution était effectivement d'arrêter complètement RAID et de le reconstruire en lui indiquant tous les disques.
#19 Le 25/06/2019, à 20:38
- alinthda
Re : [Résolu] Panne sur un Raid 6 (mdadm)
Bien. Je passe en résolu. Je te remercie grandement et te souhaite une bonne soirée
Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -
Hors ligne
Pages : 1