[RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

Maximilian · Le 04/10/2011, à 22:14

Bonjour,

J'ai un gros problème de RAID 5 sur un serveur de données sous Ubuntu 10.4
Je précise au passage que je suis encore quelque peu novice

Ma config est la suivante :
- Carte contrôleur SATA 1
- sdb : disque de 1.5to, membre d'un RAID5
- sdc : disque de 1.5to, membre d'un RAID5
- sdd : disque de 1.5to, membre d'un RAID5
- sde : disque de 1To, membre d'un RAID1
- Carte contrôleur SATA 2
- sdf : disque de 1.5to, membre d'un RAID5
- sdg : disque de 1.5to, membre d'un RAID5
- sdh : disque de 1.5to, membre d'un RAID5
- sdi : disque de 1To, membre d'un RAID1

J'ai monté le RAID 5 logiciel en suivant la démarche suivante :
http://doc.ubuntu-fr.org/raid_logiciel# … ume_raid_5

Tout fonctionnait bien jusqu'à ce que mon petit neveu mette ses doigts là où il ne fallait pas et... "débranche" le contrôleur SATA 1 à chaud (grrrrr...)

Depuis, le RAID 5 refuse de se monter (alors que le RAID 1 qui se trouve aussi pour moitié sur ce contrôleur se monte sans problème).
Au démarrage du RAID il me dit mdadm: /dev/sdb has no superblock - asembly aborted

mdadm --examine /dev/sd[bcdfgh] me donne :

xxxxx@fileServer:~$ mdadm --examine /dev/sd[bcdfgh]
mdadm: No md superblock detected on /dev/sdb. 
/dev/sdc: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Sun Oct  2 21:22:18 2011 
          State : clean 
 Active Devices : 6 
Working Devices : 6 
 Failed Devices : 0 
  Spare Devices : 0 
       Checksum : 5f4585ab - correct 
         Events : 192 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     1       8       32        1      active sync   /dev/sdc 

   0     0       8       16        0      active sync 
   1     1       8       32        1      active sync   /dev/sdc 
   2     2       8       48        2      active sync   /dev/sdd 
   3     3       8       80        3      active sync 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
/dev/sdd: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Sun Oct  2 21:22:18 2011 
          State : clean 
 Active Devices : 6 
Working Devices : 6 
 Failed Devices : 0 
  Spare Devices : 0 
       Checksum : 5f4585bd - correct 
         Events : 192 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     2       8       48        2      active sync   /dev/sdd 

   0     0       8       16        0      active sync 
   1     1       8       32        1      active sync   /dev/sdc 
   2     2       8       48        2      active sync   /dev/sdd 
   3     3       8       80        3      active sync 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
mdadm: No md superblock detected on /dev/sdf. 
/dev/sdg: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : clean 
 Active Devices : 3 
Working Devices : 3 
 Failed Devices : 2 
  Spare Devices : 0 
       Checksum : 5f46be8d - correct 
         Events : 196 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     4       8       96        4      active sync   /dev/sdg 

   0     0       0        0        0      removed 
   1     1       0        0        1      faulty removed 
   2     2       0        0        2      faulty removed 
   3     3       8       80        3      active sync 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
/dev/sdh: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : clean 
 Active Devices : 3 
Working Devices : 3 
 Failed Devices : 2 
  Spare Devices : 0 
       Checksum : 5f46be9f - correct 
         Events : 196 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     5       8      112        5      active sync   /dev/sdh 

   0     0       0        0        0      removed 
   1     1       0        0        1      faulty removed 
   2     2       0        0        2      faulty removed 
   3     3       8       80        3      active sync 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh

et au lieu de me créer un /dev/md1, je me retrouve avec /dev/md126 et /dev/md127 (je ne sais pas à quoi cela correspond ??)

xxxxx@fileServer:~$ ls /dev/md* 
/dev/md0  /dev/md126  /dev/md127  /dev/md_d0

Après une petite recherche sur Google, je suis tombé sur ce site : http://hoper.dnsalias.net/tdc/index.php … cun-espoir
malheureusement cela n'a pas réglé mon problème

Pourtant les disques sont tous "clean", tout est en apparence en place... sauf le superblock de /dev/sdb...

Comment faire pour réparer mon RAID 5 ?
Please HELP !!!

Max[

Dernière modification par Maximilian (Le 06/10/2011, à 20:38)

Hoper · Le 04/10/2011, à 23:07

Après une petite recherche sur Google, je suis tombé sur ce site : http://hoper.dnsalias.net/tdc/index.php … cun-espoir
malheureusement cela n'a pas réglé mon problèm

Pourtant je pense qu'il doit y avoir moyen de s'en sortir. Ton cas est très, très proche de celui dans lequel je me suis trouvé. Et on utilise le même format de raid (0.9). (Enfin, je suis passé à la 1.2 depuis, mais c'est une autre histoire, bref).

Comme tu peux le voir, tous les membres de ton raid ne sont pas au meme niveau. Certains affichent "Events : 192" alors que d'autres sont à 196. Vérifie chaque disque précisément, et indique ici à quel valeur est chacun des membres

Expliques nous aussi ce que tu as fait très précisément pour te retrouver avec tous ces raids. Ils ont étés crés automatiquement au boot ? Ou c'est toi qui a fait des essais d'assemblage ? Et si c'est le cas, avec quelle commande exactement ?

Dernière modification par Hoper (Le 04/10/2011, à 23:10)

Maximilian · Le 05/10/2011, à 09:19

Bonjour Hoper.

Merci de t'intéresser à mon problème qui, je pense aussi, ressemble beaucoup au tien !

Hoper a écrit :

Vérifie chaque disque précisément, et indique ici à quel valeur est chacun des membres

J'ai (je pense) redémarré 3-4 fois le serveur avec l'une des deux cartes contrôleur "débranchée".
Quand j'ai compris ce qui se passait et que tout a été rebranché, je me suis retrouvé dans la situation suivante :
- sdb : Event 192, State Clean, Statut Removed
- sdc : Event 192, State Clean, Statut Faulty removed
- sdd : Event 192, State Clean, Statut Faulty removed
- sdf : Event 196, State Clean, Statut Active sync
- sdg : Event 196, State Clean, Statut Active sync
- sdh : Event 196, State Clean, Statut Active sync

Hoper a écrit :

Expliques nous aussi ce que tu as fait très précisément pour te retrouver avec tous ces raids. Ils ont étés crés automatiquement au boot ? Ou c'est toi qui a fait des essais d'assemblage ? Et si c'est le cas, avec quelle commande exactement ?

J'ai alors tenté quelques "stop/start" via l'interface graphique, sans résultat.
Je pense que les 4 events d'écart correspondent à des tentatives d'assemblage (soit au boot, soit manuelles je ne sais pas).
En tout cas il n'y a pas eu modification de données (volontaires de ma part en tout cas).

En me basant sur ton site, j'ai alors décidé de réassembler manuellement le RAID.
J'ai commencé par assembler les disques qui me paraissaient les "mieux", à savoir sdf, sdg et sdh :
mdadm --force --assemble /dev/md1 /dev/sd[fgh]
Puis j'ai voulu ajouter les autres disques un par un :
mdadm --add /dev/md1 /dev/sdb puis sdc puis sdd

Cela n'ayant rien donné, j'ai refait plusieurs tentatives d'assemblage :
- tantot avec sd[bcd] puis ajout de sd[fgh]
- tantot avec les 6 disques d'un coup
Mais voilà, la situation ne s'améliore pas.... voir pire puisque maintenant il me dit que sdb n'a pas (plus?) de superblock...

Quand je pense que j'ai monté un RAID5 pour sécuriser un peu mes données... bien mal m'en a pris...

Ce qui m'étonne quand même, c'est que le RAID1 qui lui aussi s'est vu amputé de la moitié de ses disques lorsque la carte contrôleur était débranchée n'a pas bronché du tout. Il s'est resynchronisé tout seul et est maintenant pleinement opérationnel...

Max.

Hoper · Le 05/10/2011, à 09:57

Quand je pense que j'ai monté un RAID5 pour sécuriser un peu mes données... bien mal m'en a pris...

Parce que tu crois que si tes données avaient étés sur un disque unique dont la carte contrôleur aurait été brutalement débranchée tu n'aurai rien perdu !? Le raid va peut etre te sauver. Peut être.

Ce qui m'étonne quand même, c'est que le RAID1 qui lui aussi s'est vu amputé de la moitié de ses disques lorsque la carte contrôleur était débranchée n'a pas bronché du tout. Il s'est resynchronisé tout seul et est maintenant pleinement opérationnel...

Ne prend surtout pas mal ce que je vais te dire mais... L'un des soucis qu'il faudrait résoudre la, et ton apparente profonde incompréhension du fonctionement des différents type de raid.

Il est totalement normal que ton raid1 soit reparti sans aucun soucis, puisque avec seulement un disque, le raid pouvait être lancé automatiquement. Quand le second disque à été retrouvé, mdadm l'a même peut etre ré-intégré automatiquement. On vérifiera ça plus tard, c'est pas le sujet. Alors que pour pouvoir lancer un raid5 avec 6 disques, il faut au moins 5 disques. Avec seulement trois disques, mdadm n'a rien pu faire. Le raid est donc véritablement tombé en erreur. De même, comment pouvais tu espérer que ce genre de commande :

J'ai commencé par assembler les disques qui me paraissaient les "mieux", à savoir sdf, sdg et sdh :
mdadm --force --assemble /dev/md1 /dev/sd[fgh]

puisse fonctionner !? Encore une fois, un raid5 construit sur 6 disques aura au minimum besoin de 5 disques pour être lancé. C'est quand même le minimum de connaissance qu'il faut avoir avant de jouer avec les raids

Voila ce que je te propose :

Supprime tous les raids actuellement "actifs". Donc si tu es toujours dans ce cas de figure :

xxxxx@fileServer:~$ ls /dev/md*
/dev/md0 /dev/md126 /dev/md127 /dev/md_d0

Tu stop les quatre. (mdadm --stop xxxx). Ensuite, il faut croiser les doigts et tenter l'assemblage de l'ensemble des disques a l'exception de sdb :

sudo mdadm --assemble --run /dev/md1 /dev/sdc /dev/sdd /dev/sdf /dev/sdg /dev/sdh

Ensuite tu me dit ce qui se passe, et tu copie/colle le résultat de "cat /proc/mdstat".

Dernière modification par Hoper (Le 05/10/2011, à 09:58)

Maximilian · Le 05/10/2011, à 11:44

Hoper a écrit :

Ne prend surtout pas mal ce que je vais te dire mais... L'un des soucis qu'il faudrait résoudre la, et ton apparente profonde incompréhension du fonctionement des différents type de raid.

Pas de pb, je n'ai pas la prétention de croire que je sais tout !
Cependant je sais quand même (dans les grandes lignes certes) comment fonctionnent les différents types de RAID (0 1 5).

Hoper a écrit :

De même, comment pouvais tu espérer que ce genre de commande (...) puisse fonctionner !?

Je ne pensais pas non plus que mes données seraient miraculeusement accessibles ainsi.
L'idée (dans ma p'tite tête) était de repartir sur la base (saine?) des 3 disques "active" puis d'ajouter 1 à 1 les autres afin de les "réactiver" (et ne plus avoir de disques "removed").
Bon, là d'accord, je montre peut être mes limites de compréhension du RAID5 et/ou de mdadm

Bref... je ferai les manip ce soir (là je suis au boulot) mais en attendant je me pose quand même une question :
Lorsque j'ai assemblé pour la 1ere fois les 6 disques, il a fallut environ 20 heures pour que l'ensemble soit actif (le serveur n'est qu'un Pentium 4 2.8GHz !) alors que les disques étaient vides !
Ne vais-je pas trop vite maintenant ? Faut-il que je m'attende à ce que la remise en ligne de mon RAID prenne de nouveau 20h (voir plus vu que maintenant j'ai des données dessus) ?

Dernière question : /dev/md0 et /dev/md_d0 correspondent au RAID1 qui lui fonctionne très bien.
Faut-il que je le supprime le temps de régler mon pb ou puis-je me contenter de supprimer les "pseudo-montages" du RAID5 (md126 et md127) ?

Merci encore pour ton aide !
Max.

Hoper · Le 05/10/2011, à 12:51

Lorsque j'ai assemblé pour la 1ere fois les 6 disques, il a fallut environ 20 heures pour que l'ensemble soit actif (le serveur n'est qu'un Pentium 4 2.8GHz !) alors que les disques étaient vides !

tu n'avais pas assemblé le raid (mdadm --assemble) tu l'avais crée "mdadm --create". Les 20h d'attente (pendant lesquelles le raid était déjà parfaitement utilisable) étaient nécéssaire pour initialiser le raid (mais ne me demande pas exactement ce qui se passe à ce moment la, quels disques sont synchnronisés avec quels autre etc, car ça fait parti des choses qui sont encore très floues pour moi).

Aujourd’hui, il s'agit juste de le ré-assembler correctement. La commande que je t'ai donnée, si elle fonctionne, sera instantanée, et ton raid sera immédiatement disponible (en mode dégradé). L'ajout du dernier disque pourra en revanche provoquer, ou pas, une synchronisation totale ou partielle du raid. Et donc la oui, dans le pire des cas, tu repartira pour 20h d'accès disques. Mais la encore, le raid restera disponible pendant ce temps la.

Dernière question : /dev/md0 et /dev/md_d0 correspondent au RAID1 qui lui fonctionne très bien.

Sauf que ton raid est soit /dev/md0, soit /dev/md_d0, mais c'est l'un ou l'autre. Enfin, si techniquement, cela peut être l'un ET l'autre, mais alors il y en a clairement un de trop qui ne sert à rien. Dans le doute, stoppe les tous. Ton raid1 ne craint rien, on le remontera proprement après.

Dernière modification par Hoper (Le 05/10/2011, à 12:52)

Hoper · Le 05/10/2011, à 16:05

PS : Si jamais cela ne fonctionnait pas (j'ai vraiment bon espoir que ca fonctionne hein ! Mais dans le pire des cas...), surtout tu ne paniques pas et tu ne fais rien d'autre. Il restera encore une carte à jouer en forçant un "build" sans méta-data pour retrouver des données.

Maximilian · Le 05/10/2011, à 18:14

Bon bin malheureusement cela n'a pas marché... cependant il y a un peu de changement. Voici la situation :

J'ai donc redémarré le serveur (oui, je l'avais éteint, j'en avais un peu marre ^^)

xxxxx@fileServer:~$ ls /dev/md* 
/dev/md0  /dev/md_d0

Je n'ai donc plus les assemblages "étranges".

xxxxx@fileServer:~$ sudo mdadm --stop /dev/md0 
mdadm: fail to stop array /dev/md0: Device or resource busy 
xxxxx@fileServer:~$ sudo mdadm --stop /dev/md_d0 
mdadm: fail to stop array /dev/md_d0: Device or resource busy

Bon ça c'est pas super bon signe... mais bon c'est le RAID1, on va le laisser tranquille pour le moment, non ?

xxxxx@fileServer:~$ sudo mdadm --assemble --run /dev/md1 /dev/sdc /dev/sdd /dev/sdf /dev/sdg /dev/sdh 
mdadm: failed to RUN_ARRAY /dev/md1: Input/output error 
mdadm: Not enough devices to start the array.

Cela n'a donc pas fonctionné.
Par acquis de conscience, j'ai fait afficher le détail de /dev/md1 fraîchement créé :

xxxxx@fileServer:~$ sudo mdadm --detail /dev/md1 
/dev/md1: 
        Version : 00.90 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
   Raid Devices : 6 
  Total Devices : 3 
Preferred Minor : 1 
    Persistence : Superblock is persistent 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : active, degraded, Not Started 
 Active Devices : 3 
Working Devices : 3 
 Failed Devices : 0 
  Spare Devices : 0 

         Layout : left-symmetric 
     Chunk Size : 64K 

           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
         Events : 0.196 

    Number   Major   Minor   RaidDevice State 
       0       0        0        0      removed 
       1       0        0        1      removed 
       2       0        0        2      removed 
       3       8       80        3      active sync   /dev/sdf 
       4       8       96        4      active sync   /dev/sdg 
       5       8      112        5      active sync   /dev/sdh

J'ai refait un examine des 6 disques, voici la situation actuelle :

xxxxx@fileServer:~$ sudo mdadm --examine /dev/sd[bcdfgh]
/dev/sdb: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Sun Oct  2 21:22:18 2011 
          State : clean 
 Active Devices : 6 
Working Devices : 6 
 Failed Devices : 0 
  Spare Devices : 0 
       Checksum : 5f458599 - correct 
         Events : 192 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     0       8       16        0      active sync   /dev/sdb 

   0     0       8       16        0      active sync   /dev/sdb 
   1     1       8       32        1      active sync   /dev/sdc 
   2     2       8       48        2      active sync   /dev/sdd 
   3     3       8       80        3      active sync   /dev/sdf 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
/dev/sdc: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Sun Oct  2 21:22:18 2011 
          State : clean 
 Active Devices : 6 
Working Devices : 6 
 Failed Devices : 0 
  Spare Devices : 0 
       Checksum : 5f4585ab - correct 
         Events : 192 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     1       8       32        1      active sync   /dev/sdc 

   0     0       8       16        0      active sync   /dev/sdb 
   1     1       8       32        1      active sync   /dev/sdc 
   2     2       8       48        2      active sync   /dev/sdd 
   3     3       8       80        3      active sync   /dev/sdf 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
/dev/sdd: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Sun Oct  2 21:22:18 2011 
          State : clean 
 Active Devices : 6 
Working Devices : 6 
 Failed Devices : 0 
  Spare Devices : 0 
       Checksum : 5f4585bd - correct 
         Events : 192 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     2       8       48        2      active sync   /dev/sdd 

   0     0       8       16        0      active sync   /dev/sdb 
   1     1       8       32        1      active sync   /dev/sdc 
   2     2       8       48        2      active sync   /dev/sdd 
   3     3       8       80        3      active sync   /dev/sdf 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
/dev/sdf: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : clean 
 Active Devices : 3 
Working Devices : 3 
 Failed Devices : 2 
  Spare Devices : 0 
       Checksum : 5f46be7b - correct 
         Events : 196 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     3       8       80        3      active sync   /dev/sdf 

   0     0       0        0        0      removed 
   1     1       0        0        1      faulty removed 
   2     2       0        0        2      faulty removed 
   3     3       8       80        3      active sync   /dev/sdf 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
/dev/sdg: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : clean 
 Active Devices : 3 
Working Devices : 3 
 Failed Devices : 2 
  Spare Devices : 0 
       Checksum : 5f46be8d - correct 
         Events : 196 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     4       8       96        4      active sync   /dev/sdg 

   0     0       0        0        0      removed 
   1     1       0        0        1      faulty removed 
   2     2       0        0        2      faulty removed 
   3     3       8       80        3      active sync   /dev/sdf 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh 
/dev/sdh: 
          Magic : a92b4efc 
        Version : 00.90.00 
           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
     Array Size : 7325692480 (6986.32 GiB 7501.51 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : clean 
 Active Devices : 3 
Working Devices : 3 
 Failed Devices : 2 
  Spare Devices : 0 
       Checksum : 5f46be9f - correct 
         Events : 196 

         Layout : left-symmetric 
     Chunk Size : 64K 

      Number   Major   Minor   RaidDevice State 
this     5       8      112        5      active sync   /dev/sdh 

   0     0       0        0        0      removed 
   1     1       0        0        1      faulty removed 
   2     2       0        0        2      faulty removed 
   3     3       8       80        3      active sync   /dev/sdf 
   4     4       8       96        4      active sync   /dev/sdg 
   5     5       8      112        5      active sync   /dev/sdh

A priori le problème de superblock de sdb a disparu...

Pour info, voici le contenu de /etc/mdadm/mdadm.conf (si cela peut t'être utile) :

# mdadm.conf
#
# Please refer to mdadm.conf(5) for information about this file.
#
# by default, scan all partitions (/proc/partitions) for MD superblocks.
# alternatively, specify devices to scan, using wildcards if desired.
DEVICE partitions
# auto-create devices with Debian standard permissions
CREATE owner=root group=disk mode=0660 auto=yes
# automatically tag new arrays as belonging to the local system
HOMEHOST <system>
# instruct the monitoring daemon where to send mail alerts
MAILADDR root
# definitions of existing MD arrays
ARRAY /dev/md0 level=raid1 num-devices=2 UUID=948b3531:94e34553:1095bc7c:025e3d4e
ARRAY /dev/md1 level=raid5 num-devices=6 devices=/dev/sdb,/dev/sdc,/dev/sdd,/dev/sdf,/dev/sdg,/dev/sdh
# This file was auto-generated on Sat, 01 Aug 2009 21:19:22 +0200
# by mkconf $Id$

Je ne touche plus à rien, j’attends tes consignes

Max

Hoper · Le 05/10/2011, à 18:20

Bon ça c'est pas super bon signe... mais bon c'est le RAID1, on va le laisser tranquille pour le moment, non ?

Le raid1 était déjà probablement monté. Et oui on peut le laisser tranquille, mais il faut etre sur qu'il n’empiète pas sur le raid5. Copie le résultat de :

cat /proc/mdstat

Le truc qui m'inquiete plus, c'est ça :

mdadm: failed to RUN_ARRAY /dev/md1: Input/output error

Que donne le résultat de dmesg (copie ici les 20 ou 30 dernières lignes, en particulier bien sur tout ce qui peut ressembler à des erreurs ou à des warning).

Ce qui me rassure : Tous tes disques semblent dans un état parfaitement "cohérant" avec la panne. 3 des disques pensent que tout va bien, les 3 autres ont bien vu qu'ils ont perdus leur 3 copains. Je suis convaincu qu'on réussira à récupérer tes données d'une façon ou d'une autre.
J'attend le résultat de ces deux commandes, ensuite on avisera. Je voudrai surtout comprendre l'origine de IO error.

Dernière modification par Hoper (Le 05/10/2011, à 18:25)

Maximilian · Le 05/10/2011, à 20:43

Au niveau de mdstat, rien d'inquiétant :

xxxxx@fileServer:~$ cat /proc/mdstat 
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md1 : inactive sdf[3] sdh[5] sdg[4] 
      4395415488 blocks 
       
md0 : active raid1 sdi1[0] sde1[1] 
      976759936 blocks [2/2] [UU] 
      
unused devices: <none>

md0 correspond bien à mon RAID1 et il a l'air OK
md1 correspond bien à mon RAID5. On y retrouve les 3 disques "sains" (fgh) mais pas ceux qui ont été déconnectés (bcd).

coté dmesg, dans un premier temps on voit bien la détection des disques.
Ce qui en ressort c'est aue pour les deux disques du RAID1 (sde et sdi) il n'y a pas de problème.
Par contre pour les 6 disques du RAID5, on a un message "sd- : unknown partition table".

[    1.540909] sd 2:0:0:0: Attached scsi generic sg2 type 0 
[    1.542042] sd 2:0:0:0: [sdb] 2930277168 512-byte logical blocks: (1.50 TB/1.36 TiB) 
[    1.542177] sd 2:0:0:0: [sdb] Write Protect is off 
[    1.542184] sd 2:0:0:0: [sdb] Mode Sense: 00 3a 00 00 
[    1.542257] sd 2:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    1.542559]  sdb: unknown partition table 
[    1.547467] sd 2:0:0:0: [sdb] Attached SCSI disk 
[    1.548079] ata7: SATA link up 3.0 Gbps (SStatus 123 SControl 300) 
[    1.556399] ata7.00: ATA-7: SAMSUNG HD154UI, 1AG01118, max UDMA7 
[    1.556404] ata7.00: 2930277168 sectors, multi 0: LBA48 NCQ (depth 0/32) 
[    1.565460] ata7.00: configured for UDMA/133 
[    2.016041] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300) 
[    2.024375] ata4.00: ATA-8: SAMSUNG HD153WI, 1AN10002, max UDMA/133 
[    2.024380] ata4.00: 2930277168 sectors, multi 0: LBA48 NCQ (depth 0/32) 
[    2.032404] ata4.00: configured for UDMA/133 
[    2.032568] scsi 3:0:0:0: Direct-Access     ATA      SAMSUNG HD153WI  1AN1 PQ: 0 ANSI: 5 
[    2.032953] sd 3:0:0:0: Attached scsi generic sg3 type 0 
[    2.033000] sd 3:0:0:0: [sdc] 2930277168 512-byte logical blocks: (1.50 TB/1.36 TiB) 
[    2.033287] sd 3:0:0:0: [sdc] Write Protect is off 
[    2.033293] sd 3:0:0:0: [sdc] Mode Sense: 00 3a 00 00 
[    2.033536] sd 3:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    2.034641]  sdc: unknown partition table 
[    2.037552] sd 3:0:0:0: [sdc] Attached SCSI disk 
[    2.508040] ata5: SATA link up 3.0 Gbps (SStatus 123 SControl 300) 
[    2.516391] ata5.00: ATA-7: SAMSUNG HD154UI, 1AG01118, max UDMA7 
[    2.516395] ata5.00: 2930277168 sectors, multi 0: LBA48 NCQ (depth 0/32) 
[    2.524411] ata5.00: configured for UDMA/133 
[    2.524566] scsi 4:0:0:0: Direct-Access     ATA      SAMSUNG HD154UI  1AG0 PQ: 0 ANSI: 5 
[    2.524934] sd 4:0:0:0: Attached scsi generic sg4 type 0 
[    2.525220] sd 4:0:0:0: [sdd] 2930277168 512-byte logical blocks: (1.50 TB/1.36 TiB) 
[    2.526228] sd 4:0:0:0: [sdd] Write Protect is off 
[    2.526236] sd 4:0:0:0: [sdd] Mode Sense: 00 3a 00 00 
[    2.526299] sd 4:0:0:0: [sdd] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    2.526598]  sdd: unknown partition table 
[    2.533700] sd 4:0:0:0: [sdd] Attached SCSI disk 
[    3.000042] ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300) 
[    3.008390] ata6.00: ATA-7: SAMSUNG HD103SI, 1AG01118, max UDMA7 
[    3.008395] ata6.00: 1953525168 sectors, multi 0: LBA48 NCQ (depth 0/32) 
[    3.016410] ata6.00: configured for UDMA/133 
[    3.016569] scsi 5:0:0:0: Direct-Access     ATA      SAMSUNG HD103SI  1AG0 PQ: 0 ANSI: 5 
[    3.016935] sd 5:0:0:0: Attached scsi generic sg5 type 0 
[    3.016991] sd 5:0:0:0: [sde] 1953525168 512-byte logical blocks: (1.00 TB/931 GiB) 
[    3.017293] scsi 6:0:0:0: Direct-Access     ATA      SAMSUNG HD154UI  1AG0 PQ: 0 ANSI: 5 
[    3.017473] sd 5:0:0:0: [sde] Write Protect is off 
[    3.017480] sd 5:0:0:0: [sde] Mode Sense: 00 3a 00 00 
[    3.017549] sd 5:0:0:0: [sde] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    3.017626] sd 6:0:0:0: Attached scsi generic sg6 type 0 
[    3.017891]  sde: 
[    3.018183] sd 6:0:0:0: [sdf] 2930277168 512-byte logical blocks: (1.50 TB/1.36 TiB) 
[    3.018313] sd 6:0:0:0: [sdf] Write Protect is off 
[    3.018319] sd 6:0:0:0: [sdf] Mode Sense: 00 3a 00 00 
[    3.018399] sd 6:0:0:0: [sdf] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    3.019504]  sdf: unknown partition table 
[    3.026597]  sde1 
[    3.027201] sd 5:0:0:0: [sde] Attached SCSI disk 
[    3.027476] sd 6:0:0:0: [sdf] Attached SCSI disk 
[    3.147710] md: bind<sde1> 
[    3.492040] ata8: SATA link up 3.0 Gbps (SStatus 123 SControl 300) 
[    3.500390] ata8.00: ATA-7: SAMSUNG HD154UI, 1AG01118, max UDMA7 
[    3.500394] ata8.00: 2930277168 sectors, multi 0: LBA48 NCQ (depth 0/32) 
[    3.508414] ata8.00: configured for UDMA/133 
[    3.508578] scsi 7:0:0:0: Direct-Access     ATA      SAMSUNG HD154UI  1AG0 PQ: 0 ANSI: 5 
[    3.508919] sd 7:0:0:0: [sdg] 2930277168 512-byte logical blocks: (1.50 TB/1.36 TiB) 
[    3.509041] sd 7:0:0:0: [sdg] Write Protect is off 
[    3.509047] sd 7:0:0:0: [sdg] Mode Sense: 00 3a 00 00 
[    3.509053] sd 7:0:0:0: Attached scsi generic sg7 type 0 
[    3.509114] sd 7:0:0:0: [sdg] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    3.509598]  sdg: unknown partition table 
[    3.518533] sd 7:0:0:0: [sdg] Attached SCSI disk 
[    3.984037] ata9: SATA link up 3.0 Gbps (SStatus 123 SControl 300) 
[    3.992373] ata9.00: ATA-8: SAMSUNG HD153WI, 1AN10002, max UDMA/133 
[    3.992378] ata9.00: 2930277168 sectors, multi 0: LBA48 NCQ (depth 0/32) 
[    4.000414] ata9.00: configured for UDMA/133 
[    4.000556] scsi 8:0:0:0: Direct-Access     ATA      SAMSUNG HD153WI  1AN1 PQ: 0 ANSI: 5 
[    4.000866] sd 8:0:0:0: [sdh] 2930277168 512-byte logical blocks: (1.50 TB/1.36 TiB) 
[    4.000924] sd 8:0:0:0: Attached scsi generic sg8 type 0 
[    4.000980] sd 8:0:0:0: [sdh] Write Protect is off 
[    4.000986] sd 8:0:0:0: [sdh] Mode Sense: 00 3a 00 00 
[    4.001076] sd 8:0:0:0: [sdh] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    4.001580]  sdh: unknown partition table 
[    4.013303] sd 8:0:0:0: [sdh] Attached SCSI disk 
[    4.476036] ata10: SATA link up 3.0 Gbps (SStatus 123 SControl 300) 
[    4.484387] ata10.00: ATA-7: SAMSUNG HD103SI, 1AG01118, max UDMA7 
[    4.484392] ata10.00: 1953525168 sectors, multi 0: LBA48 NCQ (depth 0/32) 
[    4.492411] ata10.00: configured for UDMA/133 
[    4.492550] scsi 9:0:0:0: Direct-Access     ATA      SAMSUNG HD103SI  1AG0 PQ: 0 ANSI: 5 
[    4.492855] sd 9:0:0:0: [sdi] 1953525168 512-byte logical blocks: (1.00 TB/931 GiB) 
[    4.492918] sd 9:0:0:0: Attached scsi generic sg9 type 0 
[    4.492970] sd 9:0:0:0: [sdi] Write Protect is off 
[    4.492977] sd 9:0:0:0: [sdi] Mode Sense: 00 3a 00 00 
[    4.493037] sd 9:0:0:0: [sdi] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA 
[    4.493402]  sdi: sdi1 
[    4.502313] sd 9:0:0:0: [sdi] Attached SCSI disk

Dans un second temps, on vois les traces de ce qui s'est passé ce soir lorsque j'ai tenté de le réassembler sans sdb.
Mais rien concernant l'I/O error...

[  378.165575] md: md0 still in use. 
[  386.095892] md: md0 still in use. 
[  573.636316] md: md1 stopped. 
[  573.657906] md: bind<sdc> 
[  573.658146] md: bind<sdd> 
[  573.658363] md: bind<sdg> 
[  573.658550] md: bind<sdh> 
[  573.658764] md: bind<sdf> 
[  573.658830] md: kicking non-fresh sdd from array! 
[  573.658842] md: unbind<sdd> 
[  573.669088] md: export_rdev(sdd) 
[  573.669107] md: kicking non-fresh sdc from array! 
[  573.669125] md: unbind<sdc> 
[  573.681175] md: export_rdev(sdc) 
[  573.739212] raid5: device sdf operational as raid disk 3 
[  573.739220] raid5: device sdh operational as raid disk 5 
[  573.739225] raid5: device sdg operational as raid disk 4 
[  573.740338] raid5: allocated 6308kB for md1 
[  573.749582] 3: w=1 pa=0 pr=6 m=1 a=2 r=6 op1=0 op2=0 
[  573.749590] 5: w=2 pa=0 pr=6 m=1 a=2 r=6 op1=0 op2=0 
[  573.749596] 4: w=3 pa=0 pr=6 m=1 a=2 r=6 op1=0 op2=0 
[  573.749600] raid5: not enough operational devices for md1 (3/6 failed) 
[  573.749648] RAID5 conf printout: 
[  573.749653]  --- rd:6 wd:3 
[  573.749658]  disk 3, o:1, dev:sdf 
[  573.749662]  disk 4, o:1, dev:sdg 
[  573.749667]  disk 5, o:1, dev:sdh 
[  573.750676] raid5: failed to run raid set md1 
[  573.750685] md: pers->run() failed ...

Que veut dire md: kicking non-fresh sd- from array! (c'est la seule trace "parlant" des disques problématiques) ?

Merci.
Max.

Hoper · Le 05/10/2011, à 21:09

Bon bon bon... Au moins il n'y a pas de vrai soucis sur un disque comme je l'ai craint à un moment. Cela dit, a partir de maintenant, tu dois bien comprendre que je n'ai aucune certitude. Je vais te donner des commandes que je n'ai jamais utilisé moi même.

La seule chose que je peux faire, c'est lire le man de mdadm, et chercher avec toi la commande magique qui permettra de ré-assembler ton raid, chose qu'il est forcément possible de faire vu qu'il n'y a pas pu y avoir de dégâts (les 3 disques ont étés perdus simultanément, rien n'a donc pu être fait sur les trois restants etc). Bref, la théorie nous dit que tu retrouvera tout, a condition de ne pas faire n'importe quoi.

Mais encore une fois, puisque je ne suis pas expert sur mdadm, que je comprend simplement "grosso modo" comment il fonctionne, tu peux parfaitement chercher de l'aide ailleurs auprès de gens beaucoup plus compétents. Pourquoi pas même aller chercher de l'aide auprès des développeurs etc. Tout ce que je vais te dire maintenant, c'est uniquement ce que, en toute honnêteté, je tenterai si j'étais à ta place.

En l’occurrence, je doute que cela fonctionne, mais la première commande que j'essayerai (parce qu'elle me semble en tout cas vraiment sans danger) c'est celle ci :

sudo mdadm --manage --re-add /dev/md1

Concernant ton raid1, je suis content de voir que tu n'a plus deux devices comme avant, mais bien qu'un seul, auquel il ne sert à rien de toucher

Dernière modification par Hoper (Le 05/10/2011, à 22:07)

Maximilian · Le 06/10/2011, à 10:15

Malheureusement cela n'a rien donné....

J'ai posté mon pb sur linuxquestions.org et ubuntuforums.org. On verra bien...
Si une solution est trouvée je la posterai ici histoire de dépanner les éventuels futurs malheureux

Max.

Hoper · Le 06/10/2011, à 10:20

Ouai, ça me surprend pas plus que ça, mais il fallait essayer

tu te souvient de la commande exacte que tu as utilisé au moment de la création du raid ? (Bon, ce n'est pas très compliqué à retrouver hein...) Il faut juste retrouver comment indiquer le nombre de device, le niveau du raid etc.

En gros, la prochaine étape serait, je pense, de faire exactement ce que tu avais fait lors de la création du raid, mais en remplaçant --create par "--build".

Cela dit, attend de voir les réponses qui te seront faire ailleurs, car cette technique, même si elle te permetait de retrouver les données, ne résoudrait pas complétement le problème car les méta-datas du raid seraient toujours HS.

Maximilian · Le 06/10/2011, à 18:21

Bon, suite à quelques conseils que l'on m'a donné sur http://www.linuxquestions.org, voici la suite des épisodes :
(Désolé, ça va être un peu long mais la situation semble s'améliorer... bien que je n'ai encore aucune certitude quant à l'intégrité de mes données)

Tout d'abord j'ai tenté d'ajouter (de nouveau) les 3 disques manquant :

xxxxx@fileServer:~$ sudo mdadm --add /dev/md1 /dev/sd[bcd] 
mdadm: re-added /dev/sdb 
mdadm: re-added /dev/sdc 
mdadm: re-added /dev/sdd

C'est encourageant, les disques semblent bien de nouveau faire partie du RAID :

xxxxx@fileServer:~$ cat /proc/mdstat 
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md1 : inactive sdd[2] sdc[1] sdb[0] sdf[3] sdh[5] sdg[4] 
      8790830976 blocks 
       
md0 : active raid1 sdi1[0] sde1[1] 
      976759936 blocks [2/2] [UU] 
      
unused devices: <none>

Ensuite j'ai tenté un réassemblage :

xxxxx@fileServer:~$ sudo mdadm --assemble --scan /dev/md1 
mdadm: device /dev/md1 already active - cannot assemble it

Apparament mon RAID est de nouveau actif et tous les disques sont là :

xxxxx@fileServer:~$ sudo mdadm --detail /dev/md1 
/dev/md1: 
        Version : 00.90 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
   Raid Devices : 6 
  Total Devices : 6 
Preferred Minor : 1 
    Persistence : Superblock is persistent 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : active, Not Started 
 Active Devices : 6 
Working Devices : 6 
 Failed Devices : 0 
  Spare Devices : 0 

         Layout : left-symmetric 
     Chunk Size : 64K 

           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
         Events : 0.192 

    Number   Major   Minor   RaidDevice State 
       0       8       16        0      active sync   /dev/sdb 
       1       8       32        1      active sync   /dev/sdc 
       2       8       48        2      active sync   /dev/sdd 
       3       8       80        3      active sync   /dev/sdf 
       4       8       96        4      active sync   /dev/sdg 
       5       8      112        5      active sync   /dev/sdh

Malheureusement le RAID ne démarre toujours pas :

xxxxx@fileServer:~$ cat /proc/mdstat 
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md1 : inactive sdd[2] sdc[1] sdb[0] sdf[3] sdh[5] sdg[4] 
      8790830976 blocks 
       
md0 : active raid1 sdi1[0] sde1[1] 
      976759936 blocks [2/2] [UU] 
      
unused devices: <none>

Qu'à cela ne tienne, on va tenter un "stop-start" :

xxxxx@fileServer:~$ sudo mdadm --stop /dev/md1 
mdadm: stopped /dev/md1 

xxxxx@fileServer:~$ sudo mdadm --assemble --run /dev/md1 /dev/sd[bcdfgh] 
mdadm: failed to RUN_ARRAY /dev/md1: Input/output error 
mdadm: Not enough devices to start the array.

Cela ne va pas mieux. sdb et sdd sont de nouveau "removed"

xxxxx@fileServer:~$ cat /proc/mdstat 
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] 
md1 : inactive sdc[0] sdf[3] sdh[5] sdg[4] 
      5860553984 blocks 
       
md0 : active raid1 sdi1[0] sde1[1] 
      976759936 blocks [2/2] [UU] 
      
unused devices: <none>

Par contre il y a quand même du mieux puisque sdc est en cours de reconstruction :

xxxxx@fileServer:~$ sudo mdadm --detail /dev/md1 
/dev/md1: 
        Version : 00.90 
  Creation Time : Fri Jun  3 19:13:20 2011 
     Raid Level : raid5 
  Used Dev Size : 1465138496 (1397.26 GiB 1500.30 GB) 
   Raid Devices : 6 
  Total Devices : 4 
Preferred Minor : 1 
    Persistence : Superblock is persistent 

    Update Time : Mon Oct  3 19:35:09 2011 
          State : active, degraded, Not Started 
 Active Devices : 3 
Working Devices : 4 
 Failed Devices : 0 
  Spare Devices : 1 

         Layout : left-symmetric 
     Chunk Size : 64K 

           UUID : c18137a6:e03017f7:723891a1:ae6943f6 (local to host fileServer) 
         Events : 0.196 

    Number   Major   Minor   RaidDevice State 
       0       8       32        0      spare rebuilding   /dev/sdc 
       1       0        0        1      removed 
       2       0        0        2      removed 
       3       8       80        3      active sync   /dev/sdf 
       4       8       96        4      active sync   /dev/sdg 
       5       8      112        5      active sync   /dev/sdh

Je n'ai donc plus qu'à attendre la fin des process "flush" pour voir ce que cela donne... et peut-être refaire la manip pour ramener un autre disque "à la vie" :

xxxxx@fileServer:~$ sudo ps -A
 4235 ?        00:00:00 udevd 
 4268 ?        00:00:00 udevd 
 4292 ?        00:00:00 flush-8:112 
 4293 ?        00:00:00 flush-8:96 
 4294 ?        00:00:00 flush-8:80 
 4295 ?        00:00:00 flush-8:48 
 4296 ?        00:00:00 flush-8:32 
 4303 pts/0    00:00:00 ps

En attendant je croise les doigts pour que cela ne me fasse pas perdre mes données...
Mais j'ai quand même un doute...

Max.

Hoper · Le 06/10/2011, à 19:40

NOOOOOOOON !!!!

C'est tout ce que je voulais éviter !
Franchement, peut etre que je me goure complètement, et que mon message va te faire paniquer pour rien, mais... t'es sur du niveau du gars qui t'a dit de faire ça !?

Parce que la, vraiment, je comprend absolument pas ce qu'il peut re-syncrhoniser. Ce disque qui se reconstruit, il se reconstruirait par rapport à quoi !? Pour reconstruire correctement un disque, mdadm aurait besoin d'au moins 5 disques valides, or il ne les a pas. Bref, je n'ai pas la moindre idée de ce qu'il est en train de faire, mais à mon avis, c'est pas bon. Pas bon du tout

J'espère me tromper bien sur. Et on peut aussi se rassurer en se disant que, dans le pire des cas, il n'y a "que" les données présents sur un de tes disques qu'il est en train de détruire. Il t'en restera logiquement 5, donc suffisamment pour reconstruire le raid

Je ne connais pas la solution à ton problème, mais de mon point de vue, quelque soit la commande magique, aucune re-syncrho ne devrait avoir lieu (ou alors, elle ne devait durer que quelques secondes, mais pas des heures). Il est parti pour combien de temps la ?

Maximilian · Le 06/10/2011, à 20:44

Pas de panique, tout est rentré dans l'ordre.
Cela s'est terminé assez rapidement.
J'ai alors tenté de monter le volume RAID mais sans succès dans un premier temps.
J'ai donc fait un stop : sudo mdadm --stop /dev/md1
Puis j'ai forcé un dernier réassemblage avec l'option --force : sudo mdadm --assemble --force /dev/md1 /dev/sd[bcefgh]
Et maintenant tout est de nouveau en ligne, j'ai pu faire le mount, mon volume RAID est réparé et... sans pertes de données !

Merci encore à toi pour avoir passé du temps à m'aider !
Et n’hésites pas à étoffer ton site avec cette "expérience" si tu le désire... des fois que cela puisse aider quelqu'un !!

Max

Hoper · Le 07/10/2011, à 00:42

Cela s'est terminé assez rapidement.

Ok, donc bien ce que j'appelai une "petite" resynchro. Quand même, tu sais que j'ai vraiment eu peur pour toi la Tres content que tu ai pu les récupérer. Par contre, bien que ton "cas" soit très intéressant et que je garderai l'url de ce thread sous le coude, la méthode employée me laisse toujours très perplexe et il y a eu trop de "bizarreries" de faite sur ta config pour pouvoir en tirer une méthode fiable à 100 etc....

De toute façon, j'essaye de ne rien mettre sur mon blog que je ne maitrise pas

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 04/10/2011, à 22:14

[RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#2 Le 04/10/2011, à 23:07

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#3 Le 05/10/2011, à 09:19

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#4 Le 05/10/2011, à 09:57

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#5 Le 05/10/2011, à 11:44

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#6 Le 05/10/2011, à 12:51

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#7 Le 05/10/2011, à 16:05

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#8 Le 05/10/2011, à 18:14

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#9 Le 05/10/2011, à 18:20

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#10 Le 05/10/2011, à 20:43

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#11 Le 05/10/2011, à 21:09

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#12 Le 06/10/2011, à 10:15

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#13 Le 06/10/2011, à 10:20

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#14 Le 06/10/2011, à 18:21

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#15 Le 06/10/2011, à 19:40

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#16 Le 06/10/2011, à 20:44

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

#17 Le 07/10/2011, à 00:42

Re : [RESOLU] RAID 5 cassé, remontage impossible... panique à bord !

Pied de page des forums