Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 25/06/2019, à 13:17

alinthda

[Résolu] Panne sur un Raid 6 (mdadm)

Bonjour a tous,

Hier un des huit disques qui composent mon raid 6 à passé l'arme à gauche. Ce n'est pas la première fois, mais habituellement le raid passe en mode dégradé tout en continuant à fonctionner. Je change le disque et je lance l'assemblage et ça repart.

Cette fois c'est différent. Mdadm ne répond pas avec le disque défaillant en place, impossible de le déclarer hs dans mdadm. Je suis obligé de le retirer pour que mdadm réponde.
Au démarrage du serveur le raid est inactif:

mdadm --detail /dev/md127
/dev/md127:
        Version : 1.2
     Raid Level : raid0
  Total Devices : 7
    Persistence : Superblock is persistent

          State : inactive

           Name : Titan:Stockage  (local to host Titan)
           UUID : 33ad4720:6c461e7c:309eb705:ccb6e72e
         Events : 29388

    Number   Major   Minor   RaidDevice

       -       8       64        -        /dev/sde
       -       8       32        -        /dev/sdc
       -       8        0        -        /dev/sda
       -       8      112        -        /dev/sdh
       -       8       80        -        /dev/sdf
       -       8       48        -        /dev/sdd
       -       8       16        -        /dev/sdb

J'essaye donc de démarrer le raid:

mdadm --run /dev/md127
mdadm: failed to start array /dev/md/Titan:Stockage: Input/output error

Bizarrement si j'insiste en répétant la commande de démarrage le raid s'active:

mdadm --detail /dev/md127
/dev/md127:
        Version : 1.2
  Creation Time : Fri Apr 17 17:19:42 2015
     Raid Level : raid6
  Used Dev Size : 1953382912 (1862.89 GiB 2000.26 GB)
   Raid Devices : 8
  Total Devices : 7
    Persistence : Superblock is persistent

    Update Time : Tue Jun 25 13:36:38 2019
          State : active, degraded, Not Started 
 Active Devices : 7
Working Devices : 7
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : Titan:Stockage  (local to host Titan)
           UUID : 33ad4720:6c461e7c:309eb705:ccb6e72e
         Events : 29388

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed
       1       8      112        1      active sync   /dev/sdh
       2       8        0        2      active sync   /dev/sda
       8       8       16        3      active sync   /dev/sdb
      10       8       48        4      active sync   /dev/sdd
       9       8       32        5      active sync   /dev/sdc
       6       8       80        6      active sync   /dev/sdf
       7       8       64        7      active sync   /dev/sde

Je met ensuite un disque neuf et j'essaye de lancer l'assemblage:

mdadm --assemble --force /dev/md127 /dev/sdg
mdadm: no recogniseable superblock on /dev/sdg
mdadm: /dev/sdg has no superblock - assembly aborted

Voila ou j'en suis. Mes connaissances en mdadm sont légères, je ne sais plus comment sauver mon raid.
Merci d'avance pour toute aide

Dernière modification par alinthda (Le 25/06/2019, à 20:39)


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#2 Le 25/06/2019, à 13:49

Nuliel

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Bonjour,

Tu as vérifié tous les rapports smart des 8 disques? Il n'y a qu'un disque qui est parti en vrille?

Hors ligne

#3 Le 25/06/2019, à 13:55

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

En plus de celui qui à lâché? non les sept autres disques sont fonctionnels


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#4 Le 25/06/2019, à 14:06

bruno

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Bonjour,

D'abord, ce n'est pas normal que tu soit obligé de lancer plusieurs fois la commande avec --run. Mais bon cela à l'air de fonctionner…
Ensuite, tu as 7 disques actifs identifiés de sda à sdg, la commande pour ajouter le disque manquant devrait donc être porter sur sdh. À vérifier avec parted ou fdisk.

#5 Le 25/06/2019, à 14:30

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Bonjour bruno, je viens d'édité il y avait une erreur les disques actifs sont sd[a,b,c,d,e,f,h]


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#6 Le 25/06/2019, à 14:38

bruno

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Ok dans ce cas essaie de retirer le disque fautif :

mdadm /dev/md127 --fail /dev/sdg
mdadm /dev/md127 --remove /dev/sdg

Puis le nouveau disque étant branché , vérifie bien qu'il est reconnu comme étant /dev/sdg (avec parted -l ou fdisk -l) et ajoute-le :

mdadm /dev/md127 --add /dev/sdg

#7 Le 25/06/2019, à 14:47

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

J'ai essayé de retirer le disque, le problème étant que si je démarre le serveur avec le disque hs mdadm ne répond à aucune commande, il ne se passe rien le terminal est bloqué.

Ensuite quand je le retire de sa baie et que je démarre le serveur le disque n'est plus identifié:

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed

Je n'ai donc aucune lettre pour le marquer défaillant et le retirer proprement

Et quand j'essaye d'ajouter sdg je reçois le message:

root@Titan:~# mdadm /dev/md127 --add /dev/sdg
mdadm: add new device failed for /dev/sdg as 11: Invalid argument

Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#8 Le 25/06/2019, à 14:52

bruno

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Tu as lancé les deux premières commande que j'indiquais ?
Il ne s'agit pas de retirer physiquement le disque mais d'indiquer à mdadm que le disque qui était connu comme sdg ne fait plus partie du RAID.

#9 Le 25/06/2019, à 15:08

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

oui, sans succès


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#10 Le 25/06/2019, à 15:10

bruno

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Bon, le nouveau disque étant branché et le Raid activé, retours de :

parted -l
mdadm --detail --scan --verbose
cat /proc/mdstat
cat /etc/mdadm/mdadm.conf

#11 Le 25/06/2019, à 15:14

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

je t’envoie ça de suite, pour info je viens de remettre le vieux disque et d'essayer les commandes fail et remove de mdadm. mdadm plante et en branchant un écran sur le serveur un message s'affiche

ata9: softreset failed (1st FIS failed)

j'arrive avec les retours de commande


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#12 Le 25/06/2019, à 15:22

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

root@Titan:~# parted -l
Error: /dev/sda: unrecognised disk label
Model: ATA ST2000DM001-1CH1 (scsi)                                        
Disk /dev/sda: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 

Error: /dev/sdb: unrecognised disk label
Model: ATA ST2000DM001-1ER1 (scsi)                                        
Disk /dev/sdb: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 

Error: /dev/sdc: unrecognised disk label
Model: ATA ST2000DM006-2DM1 (scsi)                                        
Disk /dev/sdc: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 

Error: /dev/sdd: unrecognised disk label
Model: ATA ST2000DM006-2DM1 (scsi)                                        
Disk /dev/sdd: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 

Error: /dev/sde: unrecognised disk label
Model: ATA ST2000DM001-1ER1 (scsi)                                        
Disk /dev/sde: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 

Error: /dev/sdf: unrecognised disk label
Model: ATA ST2000DM001-1ER1 (scsi)                                        
Disk /dev/sdf: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 

Model: Unknown (unknown)
Disk /dev/nvme0n1: 250GB
Sector size (logical/physical): 512B/512B
Partition Table: msdos
Disk Flags: 

Number  Start   End    Size    Type      File system     Flags
 1      1049kB  216GB  216GB   primary   ext4
 2      216GB   250GB  34.3GB  extended
 5      216GB   250GB  34.3GB  logical   linux-swap(v1)


Error: /dev/sdg: unrecognised disk label
Model: ATA ST2000DM008-2FR1 (scsi)                                        
Disk /dev/sdg: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 

Error: /dev/sdh: unrecognised disk label
Model: ATA ST2000DM001-1CH1 (scsi)                                        
Disk /dev/sdh: 2000GB
Sector size (logical/physical): 512B/4096B
Partition Table: unknown
Disk Flags: 
root@Titan:~# mdadm --detail --scan --verbose
ARRAY /dev/md127 level=raid6 num-devices=8 metadata=1.2 spares=1 name=Titan:Stockage UUID=33ad4720:6c461e7c:309eb705:ccb6e72e
   devices=/dev/sda,/dev/sdb,/dev/sdc,/dev/sdd,/dev/sde,/dev/sdf,/dev/sdg,/dev/sdh
root@Titan:~# cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md127 : inactive sdh[1] sda[2] sdg[11](S) sdf[6] sde[7] sdd[10] sdc[9] sdb[8]
      15627068096 blocks super 1.2
       
unused devices: <none>
root@Titan:~# cat /etc/mdadm/mdadm.conf
# mdadm.conf
#
# Please refer to mdadm.conf(5) for information about this file.
#

# by default, scan all partitions (/proc/partitions) for MD superblocks.
# alternatively, specify devices to scan, using wildcards if desired.
# Note, if no DEVICE line is present, then "DEVICE partitions" is assumed.
# To avoid the auto-assembly of RAID devices a pattern that CAN'T match is
# used if no RAID devices are configured.
DEVICE partitions

# auto-create devices with Debian standard permissions
CREATE owner=root group=disk mode=0660 auto=yes

# automatically tag new arrays as belonging to the local system
HOMEHOST <system>

# definitions of existing MD arrays
ARRAY /dev/md/Titan:Stockage metadata=1.2 name=Titan:Stockage UUID=33ad4720:6c461e7c:309eb705:ccb6e72e

# instruct the monitoring daemon where to send mail alerts
MAILADDR xxxx.xxxx@xxxx.com
MAILFROM root

Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#13 Le 25/06/2019, à 15:43

bruno

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Tout me semble ok sauf que le RAID n'est pas actif (retour de cat /proc/mdstat), tu dois donc tenter pour l'activer :

mdadm --assemble --scan

#14 Le 25/06/2019, à 15:49

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

sdg (disque neuf) est maintenant vu en spare

root@Titan:~# mdadm --assemble --scan
root@Titan:~# mdadm --detail /dev/md127
/dev/md127:
        Version : 1.2
  Creation Time : Fri Apr 17 17:19:42 2015
     Raid Level : raid6
  Used Dev Size : 1953382912 (1862.89 GiB 2000.26 GB)
   Raid Devices : 8
  Total Devices : 8
    Persistence : Superblock is persistent

    Update Time : Tue Jun 25 16:12:35 2019
          State : active, degraded, Not Started 
 Active Devices : 7
Working Devices : 8
 Failed Devices : 0
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 512K

           Name : Titan:Stockage  (local to host Titan)
           UUID : 33ad4720:6c461e7c:309eb705:ccb6e72e
         Events : 29412

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed
       1       8      112        1      active sync   /dev/sdh
       2       8        0        2      active sync   /dev/sda
       8       8       16        3      active sync   /dev/sdb
      10       8       48        4      active sync   /dev/sdd
       9       8       32        5      active sync   /dev/sdc
       6       8       80        6      active sync   /dev/sdf
       7       8       64        7      active sync   /dev/sde

      11       8       96        -      spare   /dev/sdg
root@Titan:~# 

Dernière modification par alinthda (Le 25/06/2019, à 15:55)


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#15 Le 25/06/2019, à 16:20

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

alors je viens de tenter:

mdadm --stop /dev/md127
mdadm --assemble --run --force --update=resync /dev/md127 /dev/sda /dev/sdb /dev/sdc /dev/sdd /dev/sde /dev/sdf /dev/sdg /dev/sdh

Alors c'est un peu bourrin mais le raid est en train de se synchroniser, je vais voir dans quelques heures le résultat

Dernière modification par alinthda (Le 25/06/2019, à 16:20)


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#16 Le 25/06/2019, à 16:40

bruno

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Non c'est pas bourrin, c'est exactement ce que j'allais te proposer en cas d'échec wink

#17 Le 25/06/2019, à 17:20

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Un énorme merci pour ton aide bruno, cependant je ne comprends pas qu'elle manipulation a fait passé sdg en spare? (pour info le raid est à 40% de reconstruction)

Dernière modification par alinthda (Le 25/06/2019, à 18:02)


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne

#18 Le 25/06/2019, à 19:59

bruno

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Le problème de base vient du fait que tu as redémarré la machine sans avoir retiré le disque fautif (avec mdadm --ffail et --remove. Mais tu ne pouvais peut-être pas faire autrement…
Quand on fait cela les informations sur le disques fautif sont perdues mais il fait toujours partie du RAID (marqué comme removed dans tes retours). Tu as en quelque sorte un disque fantôme.
Lorsque tu as essayé de ré-assembler le Raid en #14 avec le nouveau disque, la commande a été comprise par le système comme l'ajout d'un disque à une grappe qui contenait déjà les 8 disques, dont un disque « fantôme». Le nouveau disque a donc été ajouté comme disque supplémentaire en  « spare ».

La seule solution était effectivement d'arrêter complètement RAID et de le reconstruire en lui indiquant tous les disques.

#19 Le 25/06/2019, à 20:38

alinthda

Re : [Résolu] Panne sur un Raid 6 (mdadm)

Bien. Je passe en résolu. Je te remercie grandement et te souhaite une bonne soirée


Il n'existe que deux choses infinies, l'univers et la bêtise humaine... mais pour l'univers, je n'ai pas de certitude absolue.
- Albert Einstein -

Hors ligne