[Résolu] Problème RAID5 mdadm

piouk03 · Le 02/12/2016, à 19:37

Bonsoir,

Les câbles sont neufs, je veux bien essayer de les changer demain pour voir s'il y a une amélioration, mais honnêtement j'ai quelques doutes.

Je ne suis pas connaisseur du tout, mais à l'oeil il y a ata 0.0.2, ata 0.0.3 et ata0.0.4, j'en ai déduit que le dernier numéro correspondait à un disque en particulier. Or il y en a 3 qui apparaissent, correspondants aux 3 disques de mon RAID d'origine, excluant donc le disque neuf. Donc un problème qui serait sur tous les disques présents lors du crash initial de mon serveur !? (je suis peut-être complètement à côté de la plaque... )

Je viens d'essayer

cat  /var/log/syslog  |   grep fail

, mais j'ai l'impression que tout n'apparait pas sur putty, car quand je remonte tout en haut je n'ai plus la commande que j'ai tapé :

Nov 27 20:10:57 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 27 20:12:18 server smbd[2414]:    ...fail!
Nov 27 20:12:18 server systemd[1]: smbd.service: Unit entered failed state.
Nov 27 20:12:18 server nmbd[2459]:    ...fail!
Nov 27 20:12:18 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 27 20:16:13 server smbd[4223]:    ...fail!
Nov 27 20:16:13 server systemd[1]: smbd.service: Unit entered failed state.
Nov 27 20:16:49 server smbd[4344]:    ...fail!
Nov 27 20:16:49 server systemd[1]: smbd.service: Unit entered failed state.
Nov 27 20:16:49 server nmbd[4389]:    ...fail!
Nov 27 20:16:49 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 27 20:17:22 server kernel: [  737.373307] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 27 20:17:52 server kernel: [  767.521333] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 27 20:19:38 server smbd[5948]:    ...fail!
Nov 27 20:19:38 server systemd[1]: smbd.service: Unit entered failed state.
Nov 28 19:23:07 server systemd-udevd[541]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[543]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[537]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[535]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 28 19:23:07 server systemd-udevd[535]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server systemd-udevd[543]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server systemd-udevd[537]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server systemd-udevd[541]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 28 19:23:07 server rpcbind[885]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 28 19:23:07 server rpcbind[885]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 28 19:23:07 server smartd[902]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 186 to 183
Nov 28 19:23:07 server smartd[902]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 100 to 171
Nov 28 19:23:07 server smartd[902]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 174 to 173
Nov 28 19:23:07 server smartd[902]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 175 to 174
Nov 28 19:23:07 server kernel: [    0.017460] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 28 19:23:07 server kernel: [    0.023205] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 28 19:23:07 server kernel: [    0.158452] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 28 19:23:09 server kernel: [    9.766815] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:09 server kernel: [    9.769170] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:09 server kernel: [    9.773071] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:09 server kernel: [   10.102632] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:09 server kernel: [   10.104797] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:09 server kernel: [   10.108686] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [   10.434753] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:10 server kernel: [   10.437104] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [   10.441391] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [   10.771226] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:10 server kernel: [   10.776303] ata2.00: failed command: READ FPDMA QUEUED
Nov 28 19:23:10 server kernel: [   10.778911] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:23:31 server smbd[1059]:    ...fail!
Nov 28 19:23:31 server systemd[1]: smbd.service: Unit entered failed state.
Nov 28 19:23:31 server sh[866]: Job for smbd.service failed because the control process exited with error code. See "systemctl status smbd.service" and "journalctl -xe" for details.
Nov 28 19:23:31 server sh[866]: invoke-rc.d: initscript smbd, action "reload" failed.
Nov 28 19:23:47 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Nov 28 19:23:57 server systemd[1]: apache2.service: Unit entered failed state.
Nov 28 19:27:48 server kernel: [  288.086266] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:29:41 server kernel: [  400.399640] md/raid:md0: Disk failure on sda1, disabling device.
Nov 28 19:31:56 server kernel: [  536.119311] ata3.00: failed command: READ FPDMA QUEUED
Nov 28 19:31:56 server kernel: [  536.119533] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 28 19:34:01 server kernel: [  660.529002] md/raid:md0: Disk failure on sdb1, disabling device.
Nov 28 19:36:27 server kernel: [  806.812997] md/raid:md0: Disk failure on sdc1, disabling device.
Nov 28 19:42:06 server systemd-udevd[22288]: Process '/sbin/mdadm -If sdc1 --path pci-0000:00:17.0-ata-3' failed with exit code 1.
Nov 28 19:42:06 server systemd-udevd[22281]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 2.
Nov 28 19:42:06 server systemd-udevd[22281]: Process '/sbin/mdadm -If sdc1 --path pci-0000:00:17.0-ata-3' failed with exit code 1.
Nov 28 19:42:06 server systemd-udevd[22281]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 2.
Nov 30 19:41:16 server systemd-udevd[549]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[548]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[537]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[538]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 19:41:16 server systemd-udevd[537]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server systemd-udevd[538]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server systemd-udevd[548]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server systemd-udevd[540]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 30 19:41:16 server kernel: [    0.017737] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 30 19:41:16 server kernel: [    0.024079] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 30 19:41:16 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 30 19:41:16 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 30 19:41:16 server kernel: [    0.173262] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 30 19:41:16 server kernel: [    7.457007] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [    7.460758] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [    7.462870] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [    7.788905] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [    7.792999] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [    8.121138] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:16 server kernel: [    8.125305] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:17 server kernel: [    8.453211] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:17 server kernel: [    8.457764] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:41:28 server smbd[1071]:    ...fail!
Nov 30 19:41:28 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 19:41:28 server sh[882]: Job for smbd.service failed because the control process exited with error code. See "systemctl status smbd.service" and "journalctl -xe" for details.
Nov 30 19:41:28 server sh[882]: invoke-rc.d: initscript smbd, action "reload" failed.
Nov 30 19:41:28 server smartd[963]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 183 to 180
Nov 30 19:41:28 server smartd[963]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 171 to 173
Nov 30 19:41:28 server smartd[963]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 173 to 177
Nov 30 19:41:28 server smartd[963]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 174 to 176
Nov 30 19:55:42 server kernel: [  873.679266] ata3.00: failed command: READ FPDMA QUEUED
Nov 30 19:55:42 server kernel: [  873.679353] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:57:17 server smbd[3999]:    ...fail!
Nov 30 19:57:17 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 19:57:19 server nmbd[4045]:    ...fail!
Nov 30 19:57:19 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 30 19:57:22 server kernel: [  972.935123] ata3.00: failed command: READ FPDMA QUEUED
Nov 30 19:57:22 server kernel: [  972.935364] ata3.00: failed command: WRITE FPDMA QUEUED
Nov 30 19:58:18 server kernel: [ 1029.710660] ata1.00: failed command: READ FPDMA QUEUED
Nov 30 19:58:18 server kernel: [ 1029.710883] ata1.00: failed command: WRITE FPDMA QUEUED
Nov 30 20:02:03 server dhclient[1117]: receive_packet failed on enp3s0: Network is down
Nov 30 20:02:55 server smbd[4827]:    ...fail!
Nov 30 20:02:55 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 20:02:55 server nmbd[4872]:    ...fail!
Nov 30 20:02:55 server systemd[1]: nmbd.service: Unit entered failed state.
Nov 30 21:33:43 server systemd-udevd[549]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[542]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[546]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[548]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:33:43 server systemd-udevd[542]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server systemd-udevd[546]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server systemd-udevd[549]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server systemd-udevd[548]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 30 21:33:43 server kernel: [    0.017466] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 30 21:33:43 server kernel: [    0.023066] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 30 21:33:43 server kernel: [    0.162425] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 30 21:33:43 server kernel: [    6.507191] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.218744] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.222538] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.224652] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.550749] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.554771] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.557086] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.879325] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.891060] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    8.893586] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server kernel: [    9.211110] ata4.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:33:43 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 30 21:33:43 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 30 21:33:43 server ntpdate[1072]: name server cannot be used: Temporary failure in name resolution (-3)
Nov 30 21:33:43 server ntpdate[1125]: name server cannot be used: Temporary failure in name resolution (-3)
Nov 30 21:33:53 server kernel: [   20.172292] md/raid:md0: Disk failure on sdd1, disabling device.
Nov 30 21:33:53 server kernel: [   20.172618] sd 3:0:0:0: [sdd] Synchronize Cache(10) failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 30 21:33:53 server kernel: [   20.172622] sd 3:0:0:0: [sdd] Start/Stop Unit failed: Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Nov 30 21:33:58 server smartd[924]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 177 to 176
Nov 30 21:34:09 server smbd[1202]:    ...fail!
Nov 30 21:34:09 server systemd[1]: smbd.service: Unit entered failed state.
Nov 30 21:45:20 server systemd-udevd[569]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[571]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[567]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[562]: Process '/lib/udev/hdparm' failed with exit code 5.
Nov 30 21:45:20 server systemd-udevd[569]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Nov 30 21:45:20 server systemd-udevd[571]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Nov 30 21:45:20 server systemd-udevd[559]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Nov 30 21:45:20 server systemd-udevd[562]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Nov 30 21:45:20 server kernel: [    0.017456] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Nov 30 21:45:20 server kernel: [    0.023076] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Nov 30 21:45:20 server kernel: [    0.154295] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Nov 30 21:45:20 server rpcbind[900]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Nov 30 21:45:20 server rpcbind[900]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Nov 30 21:45:20 server ntpdate[1126]: name server cannot be used: Temporary failure in name resolution (-3)
Nov 30 21:45:20 server smartd[1021]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 180 to 182
Nov 30 21:45:22 server kernel: [   10.382312] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:22 server kernel: [   10.384253] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:22 server kernel: [   10.718413] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:22 server kernel: [   10.720448] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:22 server kernel: [   11.050416] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:22 server kernel: [   11.052617] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:23 server kernel: [   11.386575] ata2.00: failed command: WRITE FPDMA QUEUED
Nov 30 21:45:23 server kernel: [   11.388984] ata2.00: failed command: READ FPDMA QUEUED
Nov 30 21:45:43 server systemd[1]: apache2.service: Unit entered failed state.
Nov 30 21:46:02 server smbd[1209]:    ...fail!
Nov 30 21:46:02 server systemd[1]: smbd.service: Unit entered failed state.
Dec  1 20:35:17 server systemd-udevd[549]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  1 20:35:17 server systemd-udevd[543]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  1 20:35:17 server systemd-udevd[547]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  1 20:35:17 server systemd-udevd[555]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  1 20:35:17 server systemd-udevd[555]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Dec  1 20:35:17 server systemd-udevd[543]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Dec  1 20:35:17 server systemd-udevd[547]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Dec  1 20:35:17 server systemd-udevd[549]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  1 20:35:17 server kernel: [    0.017458] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Dec  1 20:35:17 server kernel: [    0.023204] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Dec  1 20:35:17 server kernel: [    0.162402] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Dec  1 20:35:17 server rpcbind[899]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Dec  1 20:35:17 server rpcbind[899]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Dec  1 20:35:17 server ntpdate[1118]: name server cannot be used: Temporary failure in name resolution (-3)
Dec  1 20:35:17 server kernel: [    6.475079] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  1 20:35:17 server smartd[982]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 173 to 172
Dec  1 20:35:17 server kernel: [   10.966233] ata2.00: failed command: READ FPDMA QUEUED
Dec  1 20:35:17 server kernel: [   10.968153] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  1 20:35:18 server kernel: [   11.298453] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  1 20:35:18 server kernel: [   11.300469] ata2.00: failed command: READ FPDMA QUEUED
Dec  1 20:35:18 server kernel: [   11.630469] ata2.00: failed command: READ FPDMA QUEUED
Dec  1 20:35:18 server kernel: [   11.632677] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  1 20:35:41 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Dec  1 20:36:09 server smbd[1217]:    ...fail!
Dec  1 20:36:09 server systemd[1]: smbd.service: Unit entered failed state.
Dec  1 20:40:42 server systemd-udevd[1768]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec  1 20:40:42 server systemd-udevd[1754]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  1 20:40:42 server systemd-udevd[1754]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec  1 20:40:42 server systemd-udevd[1754]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  1 20:45:52 server systemd-udevd[1861]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec  1 20:45:52 server systemd-udevd[1861]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  1 20:47:35 server kernel: [  748.083201] ata3.00: failed command: WRITE FPDMA QUEUED
Dec  1 20:47:35 server kernel: [  748.083420] ata3.00: failed command: WRITE FPDMA QUEUED
Dec  2 12:13:13 server systemd-udevd[545]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 12:13:13 server systemd-udevd[544]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 12:13:13 server systemd-udevd[542]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 12:13:13 server systemd-udevd[551]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 12:13:13 server systemd-udevd[545]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Dec  2 12:13:13 server systemd-udevd[539]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  2 12:13:13 server systemd-udevd[544]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Dec  2 12:13:13 server systemd-udevd[551]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Dec  2 12:13:13 server kernel: [    0.017476] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Dec  2 12:13:13 server kernel: [    0.023076] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Dec  2 12:13:13 server kernel: [    0.162184] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Dec  2 12:13:13 server kernel: [    2.027381] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 12:13:13 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Dec  2 12:13:13 server rpcbind[876]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Dec  2 12:13:13 server kernel: [    7.724957] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 12:13:13 server kernel: [    8.090343] ata2.00: failed command: READ FPDMA QUEUED
Dec  2 12:13:13 server kernel: [    8.092309] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 12:13:14 server ntpdate[1114]: name server cannot be used: Temporary failure in name resolution (-3)
Dec  2 12:13:14 server kernel: [    8.422437] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 12:13:14 server kernel: [    8.424538] ata2.00: failed command: READ FPDMA QUEUED
Dec  2 12:13:15 server smartd[994]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 176 to 175
Dec  2 12:13:15 server smartd[994]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 176 to 175
Dec  2 12:13:17 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Dec  2 12:13:30 server smbd[1210]:    ...fail!
Dec  2 12:13:30 server systemd[1]: smbd.service: Unit entered failed state.
Dec  2 12:33:42 server systemd-udevd[1849]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec  2 12:33:42 server systemd-udevd[1849]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  2 18:29:19 server systemd-udevd[523]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 18:29:19 server systemd-udevd[530]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 18:29:19 server systemd-udevd[527]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 18:29:19 server systemd-udevd[534]: Process '/lib/udev/hdparm' failed with exit code 5.
Dec  2 18:29:19 server systemd-udevd[531]: Process '/sbin/mdadm --incremental /dev/sda1 --offroot' failed with exit code 1.
Dec  2 18:29:19 server systemd-udevd[534]: Process '/sbin/mdadm --incremental /dev/sdb1 --offroot' failed with exit code 1.
Dec  2 18:29:19 server systemd-udevd[527]: Process '/sbin/mdadm --incremental /dev/sdc1 --offroot' failed with exit code 1.
Dec  2 18:29:19 server systemd-udevd[537]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  2 18:29:19 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/rpcbind.xdr: failed
Dec  2 18:29:19 server rpcbind[883]: rpcbind: xdr_/run/rpcbind/portmap.xdr: failed
Dec  2 18:29:19 server kernel: [    0.017467] ACPI Error: [\_SB_.PCI0.XHC_.RHUB.HS11] Namespace lookup failure, AE_NOT_FOUND (20150930/dswload-210)
Dec  2 18:29:19 server kernel: [    0.023230] ACPI Error: 1 table load failures, 7 successful (20150930/tbxfload-214)
Dec  2 18:29:19 server kernel: [    0.154528] acpi PNP0A08:00: _OSC failed (AE_ERROR); disabling ASPM
Dec  2 18:29:19 server ntpdate[1103]: name server cannot be used: Temporary failure in name resolution (-3)
Dec  2 18:29:20 server smartd[987]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 182 to 178
Dec  2 18:29:20 server smartd[987]: Device: /dev/sdb [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 172 to 170
Dec  2 18:29:20 server smartd[987]: Device: /dev/sdc [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 175 to 173
Dec  2 18:29:20 server smartd[987]: Device: /dev/sdd [SAT], SMART Prefailure Attribute: 3 Spin_Up_Time changed from 175 to 173
Dec  2 18:29:20 server kernel: [    8.866639] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 18:29:20 server kernel: [    8.868950] ata2.00: failed command: READ FPDMA QUEUED
Dec  2 18:29:21 server kernel: [    9.198618] ata2.00: failed command: READ FPDMA QUEUED
Dec  2 18:29:21 server kernel: [    9.200758] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 18:29:21 server kernel: [    9.530806] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 18:29:21 server kernel: [    9.533102] ata2.00: failed command: READ FPDMA QUEUED
Dec  2 18:29:21 server kernel: [    9.862878] ata2.00: failed command: READ FPDMA QUEUED
Dec  2 18:29:21 server kernel: [    9.865257] ata2.00: failed command: WRITE FPDMA QUEUED
Dec  2 18:29:22 server systemd[1]: snapd.refresh.service: Unit entered failed state.
Dec  2 18:29:43 server systemd[1]: apache2.service: Unit entered failed state.
Dec  2 18:30:06 server smbd[1191]:    ...fail!
Dec  2 18:30:06 server systemd[1]: smbd.service: Unit entered failed state.
Dec  2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec  2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.
Dec  2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm -If sdd1 --path pci-0000:00:17.0-ata-4' failed with exit code 1.
Dec  2 18:35:12 server systemd-udevd[1688]: Process '/sbin/mdadm --incremental /dev/sdd1 --offroot' failed with exit code 2.

Par contre

cat  /var/log/syslog.1  |   grep fail

ne fonctionne pas :

cat: /var/log/syslog.1: Aucun fichier ou dossier de ce type

piouk03 · Le 04/12/2016, à 14:33

J'ai fais quelques recherches, le message d'erreur aurait comme origine des secteurs en attente de réallocation... Or j'ai suivi le début du tuto https://www.vincentliefooghe.net/conten … -un-disque sauf que j'obtiens cela :

root@server:~# smartctl -l selftest /dev/sda
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA                                                                             _of_first_error
# 1  Short offline       Completed without error       00%      1158         -

root@server:~# smartctl -l selftest /dev/sdb
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA                                                                             _of_first_error
# 1  Short offline       Completed without error       00%        83         -

root@server:~# smartctl -l selftest /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA                                                                             _of_first_error
# 1  Short offline       Completed without error       00%      1157         -

root@server:~# smartctl -l selftest /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.4.0-47-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA                                                                             _of_first_error
# 1  Short offline       Completed without error       00%      1157         -

Donc visiblement pas d'erreur.

jamesbad000 · Le 04/12/2016, à 15:17

Hello.

piouk03 a écrit :

Je ne suis pas connaisseur du tout, mais à l'oeil il y a ata 0.0.2, ata 0.0.3 et ata0.0.4, j'en ai déduit que le dernier numéro correspondait à un disque en particulier. Or il y en a 3 qui apparaissent, correspondants aux 3 disques de mon RAID d'origine, excluant donc le disque neuf.

D'une part, ton nouveau disque est sdb (81 heures d'utilisation dans les derniers rapport smart) correspondant probablement à ata2.00. D'autre part on trouve également dans le log ci-dessus :

server kernel: [ 1029.710660] ata1.00: failed command: READ FPDMA QUEUED

Par ailleurs les différent éléments apparaissant dans la photo de la console du serveur : "UnrecovData", "Handshk", "ATA bus error", "interface fatal error". Pointent tous vers un problème dans la communication entre les disques et l'os ayant pour causes les plus probable :
- cable (y compris connecteur) de données SATA. Les cables ne sont pas forcément endommagés mais peut-être de mauvaise qualité, trop long, ou passent trop prêt d'une source de parasite électrique (ventilo...)
- cable d'alimentation SATA
- source d'alimentation électrique insuffisante
- mauvaise compatibilité disque / contrôleur (donc carte mère, à moins d'avoir une carte contrôleur sata séparée)
(cf https://lime-technology.com/wiki/index. … ce_Issues)

Au delà de tester avec un cable SATA différent (pas obligatoire de changer tous les câbles d'un coup). Déconnecter totalement le disque qui a été sorti du raid devrait permettre de confirmer ou d'infirmer l'option sur l'alimentation électrique.

piouk03 a écrit :

j'ai l'impression que tout n'apparait pas sur putty, car quand je remonte tout en haut je n'ai plus la commande que j'ai tapé :

Putty, de même que les terminaux linux que je connais, doit avoir une paramètre permettant de fixer la limite du nombre de lignes...

Une autre approche c'est d'afficher les n dernière lignes du log après qu'elles sont apparues à la console du serveur:

tail -n 200 /var/log/syslog

quoiqu'il en soit, les fichiers dans /var/log sont des fichiers tout ce qu'il y a de plus standard et peuvent être copiés sur une clef USB ou via ssh...

Mais à ce stade, je doute qu'on en apprenne beaucoup plus dans les log...

Dernière modification par jamesbad000 (Le 04/12/2016, à 15:52)

jamesbad000 · Le 04/12/2016, à 15:22

piouk03 a écrit :

J'ai fais quelques recherches, le message d'erreur aurait comme origine des secteurs en attente de réallocation

On a déjà vérifié ce point au post #141 https://forum.ubuntu-fr.org/viewtopic.p … #p21637784

Aucun problème n'est mis en évidence au niveau des disques eux même.

Bougron · Le 04/12/2016, à 15:29

Bonjour
Il est fort possible que dans 100% des cas ce message d'erreur soit causé par une impossibilité de lire le secteur demandé.
Alors c'est quasi certain que dans 99% des cas la cause est le secteur qui ne peut pas être lu. Mais il reste 1% des cas où le problème se situe en AMONT.
Il est certain que tu es dans ce dernier contexte. Les stats montrent qu'aucun des 4 disques n'a de secteurs illisibles qu'on peut aussi trouver avec la commande

sudo smartctl   -A /dev/sda | grep Current_Pending_Sector

Comme ton incident se produit sur trois disques, Il faut envisager la piste d'un manque de puissance électrique. Mais je ne sais pas si cela donnerait ce code d'erreur

Si tu as mis des câbles neufs, il faut aussi envisager le fait qu'ils ne soient pas certifiés pour le débit que tu leur demandes...
Ou qu'ils ne soient pas suffisamment enfichés!

Dernière modification par Bougron (Le 04/12/2016, à 19:14)

piouk03 · Le 04/12/2016, à 19:07

Bonsoir,

Merci pour vos réponses.

Je vais faire différents tests dans la semaine (changement des câbles, de l'alimentation, voir de la carte mère si nécessaire) Je vous tiens au courant des résultats.

piouk03 · Le 07/12/2016, à 19:16

Bonsoir,

Bon on va peut-être réussir à avoir un serveur qui tourne... J'ai de bonne nouvelles.

Premièrement j'ai passé le disque défectueux sur un autre PC, et j'ai réussi à faire la manip que tu m'as demandé jamesbad000. Voici le résultat qui visiblement est positif :

root@ubuntu:~# sudo hdparm -I /dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214

/dev/disk/by-id/ata-WDC_WD20EZRX-00D8PB0_WD-WCC4N1174214:

ATA device, with non-removable media
    Model Number:       WDC WD20EZRX-00D8PB0                    
    Serial Number:      WD-WCC4N1174214
    Firmware Revision:  80.00A80
    Transport:          Serial, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
Standards:
    Supported: 9 8 7 6 5 
    Likely used: 9
Configuration:
    Logical        max    current
    cylinders    16383    16383
    heads        16    16
    sectors/track    63    63
    --
    CHS current addressable sectors:   16514064
    LBA    user addressable sectors:  268435455
    LBA48  user addressable sectors: 3907027055
    Logical  Sector size:                   512 bytes
    Physical Sector size:                  4096 bytes
    device size with M = 1024*1024:     1907728 MBytes
    device size with M = 1000*1000:     2000397 MBytes (2000 GB)
    cache/buffer size  = unknown
    Nominal Media Rotation Rate: 5400
Capabilities:
    LBA, IORDY(can be disabled)
    Queue depth: 32
    Standby timer values: spec'd by Standard, with device specific minimum
    R/W multiple sector transfer: Max = 16    Current = 16
    DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6 
         Cycle time: min=120ns recommended=120ns
    PIO: pio0 pio1 pio2 pio3 pio4 
         Cycle time: no flow control=120ns  IORDY flow control=120ns
Commands/features:
    Enabled    Supported:
       *    SMART feature set
            Security Mode feature set
       *    Power Management feature set
       *    Write cache
       *    Look-ahead
       *    Host Protected Area feature set
       *    WRITE_BUFFER command
       *    READ_BUFFER command
       *    NOP cmd
       *    DOWNLOAD_MICROCODE
            Power-Up In Standby feature set
       *    SET_FEATURES required to spinup after power up
            SET_MAX security extension
       *    48-bit Address feature set
       *    Device Configuration Overlay feature set
       *    Mandatory FLUSH_CACHE
       *    FLUSH_CACHE_EXT
       *    SMART error logging
       *    SMART self-test
       *    General Purpose Logging feature set
       *    64-bit World wide name
       *    WRITE_UNCORRECTABLE_EXT command
       *    {READ,WRITE}_DMA_EXT_GPL commands
       *    Segmented DOWNLOAD_MICROCODE
       *    Gen1 signaling speed (1.5Gb/s)
       *    Gen2 signaling speed (3.0Gb/s)
       *    Gen3 signaling speed (6.0Gb/s)
       *    Native Command Queueing (NCQ)
       *    Host-initiated interface power management
       *    Phy event counters
       *    NCQ priority information
       *    unknown 76[15]
            DMA Setup Auto-Activate optimization
            Device-initiated interface power management
       *    Software settings preservation
       *    SMART Command Transport (SCT) feature set
       *    SCT LBA Segment Access (AC2)
       *    SCT Features Control (AC4)
       *    SCT Data Tables (AC5)
            unknown 206[12] (vendor specific)
            unknown 206[13] (vendor specific)
            unknown 206[14] (vendor specific)
Security: 
    Master password revision code = 65534
        supported
    not    enabled
    not    locked
    not    frozen
    not    expired: security count
        supported: enhanced erase
    266min for SECURITY ERASE UNIT. 266min for ENHANCED SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 50014ee20a2352f9
    NAA        : 5
    IEEE OUI    : 0014ee
    Unique ID    : 20a2352f9
Checksum: correct



root@ubuntu:~# sudo     smartctl     -s    on   -a    /dev/sda
smartctl 5.41 2011-06-09 r3365 [i686-linux-3.2.0-23-generic-pae] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD20EZRX-00D8PB0
Serial Number:    WD-WCC4N1174214
LU WWN Device Id: 5 0014ee 20a2352f9
Firmware Version: 80.00A80
User Capacity:    2 000 397 852 160 bytes [2,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   9
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Dec  7 16:56:54 2016 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF ENABLE/DISABLE COMMANDS SECTION ===
SMART Enabled.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)    Offline data collection activity
                    was suspended by an interrupting command from host.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:         (25140) seconds.
Offline data collection
capabilities:              (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 254) minutes.
Conveyance self-test routine
recommended polling time:      (   5) minutes.
SCT capabilities:            (0x7035)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   195   195   051    Pre-fail  Always       -       21710
  3 Spin_Up_Time            0x0027   186   175   021    Pre-fail  Always       -       5700
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       462
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1055
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       461
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       155
193 Load_Cycle_Count        0x0032   197   197   000    Old_age   Always       -       10473
194 Temperature_Celsius     0x0022   116   112   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   199   199   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       17
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       25
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   196   000    Old_age   Offline      -       89

SMART Error Log Version: 1
ATA Error Count: 9 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 9 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:54:09.032  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:09.008  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:54:03.928  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 0a      00:54:03.921  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:03.857  IDENTIFY DEVICE

Error 8 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:54:03.921  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:54:03.857  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:58.753  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 0a      00:53:58.746  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:58.705  IDENTIFY DEVICE

Error 7 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 45 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 45 00 00 00 a0 0a      00:53:58.746  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:58.705  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.465  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.457  SET FEATURES [Set transfer mode]

Error 6 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 0a      00:53:29.457  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:29.444  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.433  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.425  SET FEATURES [Set transfer mode]

Error 5 occurred at disk power-on lifetime: 108 hours (4 days + 12 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 61 46 00 00 00 a0  Device Fault; Error: ABRT

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ef 03 46 00 00 00 a0 0a      00:53:29.425  SET FEATURES [Set transfer mode]
  ec 00 00 00 00 00 a0 0a      00:53:29.409  IDENTIFY DEVICE
  ec 00 00 00 00 00 a0 0a      00:53:29.401  IDENTIFY DEVICE
  ef 03 46 00 00 00 a0 0a      00:53:29.393  SET FEATURES [Set transfer mode]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       40%      1015         1031414824

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Après quelques tests il semble que mes nouveaux câbles SATA soient en cause pour les erreurs. Le problème c'est que je n'arrive pas à faire fonctionner samba sur ubuntu 16.04 avec webmin... Je vais donc tout remettre comme avant en 12.04 pour pouvoir effectuer quelques tests de transferts depuis windows et je vous tiens informé des résultats.

Bougron · Le 08/12/2016, à 19:21

Bonsoir
Espérons que la piste des câbles soit bonne.....

Pour le disque "abîmé". Je crois que tu n'as aucune donnée importante dedans
C'est le moment de faire

 sudo   dd   If=/dev/zero   of=/dev/sdX   bs=1M

avec le X à la valeur qui convient pour écrire des zéros une nouvelle fois.

J'ai noté que les secteurs en attente de réallocation semblent revenus.

197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       17

Il me semble que tu n'as pas encore traité ce problème
https://forum.ubuntu-fr.org/viewtopic.p … #p21632553
===>
l'utilitaire wdidle3 pour lequel tu trouveras un tuto écrit par un membre du forum

Ajout: Suite à la remarque de jamesbad000 qui indique que la commande va se planter
En fait, je ne suis pas assez doué pour savoir la valeur à mettre dans le paramètre count=999999999

Lorsque cela se plantera, Tu indiqueras la valeurs atteinte
Si la valeur est faible => Cela veut dire qu'on ne peut plus écrire le disque............
Si la valeur est forte => C'est peut-être la fin du disque qui a été atteinte. Donc c'est normal que cela se plante.
Pour info, Le disque fait: User Capacity: 2 000 397 852 160 bytes [2,00 TB]
Dans ces secteurs, il y en a une certaine quantité réservés pour que le firmware gère les secteurs de remplacement.
Je suis incapable de savoir combien il en prévoit . Mais comme tu écris par paquet de 1024*1024= 1.048.576
Il ne peut pas y avoir plus de 1.907.728 secteurs d'écrits.
A la fin de l'écriture un smarctctl pour savoir combien de secteurs ont basculés dans 'réallocated'

Puis dans quelques jours, on relira tout cela avec ddrescue en ignorant les secteurs illisibles.
Si on en trouve encore, C'est le moment de considérer qu'il n'est pas très fiable,

Dernière modification par Bougron (Le 09/12/2016, à 14:25)

bruno · Le 08/12/2016, à 21:58

Pas mal, 158 messages pour un disque qui est bon pour la déchetterie.

Bougron · Le 08/12/2016, à 22:54

bruno a écrit :

Pas mal, 158 messages pour un disque qui est bon pour la déchetterie.

Rien ne le prouve....
Instruis-toi en lisant quelques infos que j'ai mis dans le forum.
Fais la recherche avec "fyi" et 'vie d'un disque dur' ou 'vie d'un ssd'
Au fait , je répond encore de windows XP avec le SSD alors que je n'y croyais plus.

Dernière modification par Bougron (Le 08/12/2016, à 23:01)

jamesbad000 · Le 09/12/2016, à 01:29

burno a écrit :

Pas mal, 158 messages pour un disque qui est bon pour la déchetterie.

158 messages, pour récupérer un raid qui a perdu 2 disques, plus qui a un disque foireux, plus des problèmes de câble, plus la tentative de réabiliter le disque foireux, de corriger le problème de parcage de tête. Et tout ce qu'on a appris de nouveau au passage.
C'est toujours mieux qu'un seul message qui n'a aucune chance d'apporter quoi que ce soit à personne...
.

Piouk03 a écrit :

Premièrement j'ai passé le disque défectueux sur un autre PC, et j'ai réussi à faire la manip que tu m'as demandé jamesbad000. Voici le résultat qui visiblement est positif :

Certes, l'effacement par le biais du firmware du disque a été plus efficace que tout ce qu'on a fait jusque là. Mais il reste des secteurs qui pendouille, et pour moi c'est rédhibitoire.

Tenter de réécrire avec dd n'est pas vraiment une option qui apportera qq chose de plus. Sans parler que tel qu'il est indiqué, ca va s'arrêter à la première erreur de lecture/écriture.

Pour ce qui est de tester la stabilité de tes disques, il y a bien d'autres options que d'y accéder via samba. (winscp via ssh est vraiment simplicime à utiliser si tu n'a qu'un pc windows) ou encore des copies locales avec cp...

bruno · Le 09/12/2016, à 09:34

Ok, désolé mais je n'ai pas pris le temps de lire tout le fil…

piouk03 · Le 16/12/2016, à 20:07

Bonsoir,

Pour commencer désolé pour la réponse très tardive, mais j'avais beaucoup de travail ces derniers jours, donc pas temps à consacrer au serveur...

Là je m'y suis remis sérieusement et les nouvelles sont très positives. J'ai réinstallé tout le système en 16.04, ce qui m'a bien occupé car mon problème de Samba, était un problème de droits qui ne sont pas gérés tout à fait de la même façon avec la dernière version soit de webmin soit d'ubuntu...Bref à force de tâtonner ça fonctionne, ainsi que la partage en NFS. J'ai donc rechargé environ 4TO de données dans le serveur, et pas la moindre erreur ! Donc je pense que l'on peut dire que le problème est résolu.

Maintenant que tout fonctionne parfaitement à nouveau je vais me pencher sur le problème du disque défectueux pour voir si on arrive ou non à le sauver ! J'ai vu vos messages à ce propos, je vais avoir un peu de temps pour m'en occuper la semaine prochaine, je vous tiens informé dès que c'est fait.

Encore un grand grand merci à vous 2, je n'aurais jamais réussi tout seul

piouk03 · Le 27/01/2017, à 22:16

Bonsoir à tous,

Par manque de temps j'ai traîné pour regardé ce dernier problème de disque dur défectueux... Au final je me dis que je vais passer des heures sur un disques visiblement HS... Or mon emploi du temps plus que chargé ne me le permet gère, donc désolé mais le disque est parti à la poubelle. Par contre je tenais encore une fois a vous remercier car mon serveur fonctionne toujours très bien, et je n'ai visiblement perdu aucune info, donc encore un grand merci !

Comme tout est bouclé, il faut peut-être clore le sujet ? Ou indiquer que c'est résolu ? Si oui, comme faire ? Car je pense que le sujet peut intéressé d'autres personnes...

Bonnes soirée

jamesbad000 · Le 28/01/2017, à 01:12

Hello.

Pour passer en résolu, il suffit d'aller sur le 1er message du fil et cliquer sur modifier. Puis modifier le titre comme ceci :
[Résolu] Problème RAID5 mdadm

Bonne continuation

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#151 Le 02/12/2016, à 19:37

Re : [Résolu] Problème RAID5 mdadm

#152 Le 04/12/2016, à 14:33

Re : [Résolu] Problème RAID5 mdadm

#153 Le 04/12/2016, à 15:17

Re : [Résolu] Problème RAID5 mdadm

#154 Le 04/12/2016, à 15:22

Re : [Résolu] Problème RAID5 mdadm

#155 Le 04/12/2016, à 15:29

Re : [Résolu] Problème RAID5 mdadm

#156 Le 04/12/2016, à 19:07

Re : [Résolu] Problème RAID5 mdadm

#157 Le 07/12/2016, à 19:16

Re : [Résolu] Problème RAID5 mdadm

#158 Le 08/12/2016, à 19:21

Re : [Résolu] Problème RAID5 mdadm

#159 Le 08/12/2016, à 21:58

Re : [Résolu] Problème RAID5 mdadm

#160 Le 08/12/2016, à 22:54

Re : [Résolu] Problème RAID5 mdadm

#161 Le 09/12/2016, à 01:29

Re : [Résolu] Problème RAID5 mdadm

#162 Le 09/12/2016, à 09:34

Re : [Résolu] Problème RAID5 mdadm

#163 Le 16/12/2016, à 20:07

Re : [Résolu] Problème RAID5 mdadm

#164 Le 27/01/2017, à 22:16

Re : [Résolu] Problème RAID5 mdadm

#165 Le 28/01/2017, à 01:12

Re : [Résolu] Problème RAID5 mdadm

Pied de page des forums