[BUG] SMART Load_Cycle_Count > 820538 -> HD mort

gagarine · Le 23/10/2007, à 10:48

Bonjour,

J'ai eu quelque problème lors de la vérification de mon disque dur par fssck au démarrage (ceci à plusieurs reprise). J'ai donc effectué dans le doute un petit smartclt et franchement sa me semble très mauvais mais peut être que je me fais des idées...

Est-ce que quelqu'un de plus expert que moi en la matière pourrai m'en dire un peu plus?

Merci

 sudo smartctl -a /dev/sda
smartctl version 5.37 [x86_64-unknown-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Momentus 7200.1 series
Device Model:     ST910021AS
Serial Number:    3MH0DXAQ
Firmware Version: 4.06
User Capacity:    100'030'242'816 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Oct 23 10:13:31 2007 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      ( 121) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline 
data collection:                 ( 426) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        No General Purpose Logging support.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 111) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   090   034    Pre-fail  Always       -       91770294
  3 Spin_Up_Time            0x0003   092   091   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1391
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   068   060   030    Pre-fail  Always       -       21507511078
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1799
 10 Spin_Retry_Count        0x0013   100   100   034    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   032    Old_age   Always       -       1008
187 Unknown_Attribute       0x0032   070   070   000    Old_age   Always       -       30
189 Unknown_Attribute       0x003a   001   001   000    Old_age   Always       -       596
190 Temperature_Celsius     0x0022   073   045   045    Old_age   Always   In_the_past 454164507
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       1121
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       820538
194 Temperature_Celsius     0x0022   027   055   000    Old_age   Always       -       27 (Lifetime Min/Max 0/13)
195 Hardware_ECC_Recovered  0x001a   064   051   000    Old_age   Always       -       91770294
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 32 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 32 occurred at disk power-on lifetime: 1795 hours (74 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cf 30 25 e7  Error: UNC at LBA = 0x072530cf = 119877839

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 90 91 30 25 e7 00      00:06:05.052  READ DMA
  27 00 00 00 00 00 e0 00      00:06:05.052  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:06:05.050  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00      00:06:05.050  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:06:05.050  READ NATIVE MAX ADDRESS EXT

Error 31 occurred at disk power-on lifetime: 1795 hours (74 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cf 30 25 e7  Error: UNC at LBA = 0x072530cf = 119877839

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 90 91 30 25 e7 00      00:06:00.360  READ DMA
  27 00 00 00 00 00 e0 00      00:06:00.360  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:06:00.358  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00      00:05:58.012  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:05:58.012  READ NATIVE MAX ADDRESS EXT

Error 30 occurred at disk power-on lifetime: 1795 hours (74 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cf 30 25 e7  Error: UNC at LBA = 0x072530cf = 119877839

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 90 91 30 25 e7 00      00:06:00.360  READ DMA
  27 00 00 00 00 00 e0 00      00:06:00.360  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:06:00.358  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00      00:05:58.012  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:05:58.012  READ NATIVE MAX ADDRESS EXT

Error 29 occurred at disk power-on lifetime: 1795 hours (74 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cf 30 25 e7  Error: UNC at LBA = 0x072530cf = 119877839

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 90 91 30 25 e7 00      00:05:53.327  READ DMA
  27 00 00 00 00 00 e0 00      00:05:53.327  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:05:53.321  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00      00:05:58.012  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:05:58.012  READ NATIVE MAX ADDRESS EXT

Error 28 occurred at disk power-on lifetime: 1795 hours (74 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 cf 30 25 e7  Error: UNC at LBA = 0x072530cf = 119877839

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 90 91 30 25 e7 00      00:05:53.327  READ DMA
  27 00 00 00 00 00 e0 00      00:05:53.327  READ NATIVE MAX ADDRESS EXT
  ec 00 00 00 00 00 a0 00      00:05:53.321  IDENTIFY DEVICE
  ef 03 45 00 00 00 a0 00      00:05:53.315  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 e0 00      00:05:53.311  READ NATIVE MAX ADDRESS EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      1799         119877839
# 2  Extended offline    Completed: read failure       90%      1798         119877839

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Dernière modification par gagarine (Le 15/11/2007, à 18:12)

Sorbus · Le 15/11/2007, à 17:36

Bonjour gagarine,

Dans la colonne "type", les indications "Old_age" et "Pre_fail" inquiètent beaucoup de monde. Mais ces mentions concernent seulement le type de données fournies, et non pas des alertes.

Les données de type "Old_age" concernent l'usure normale liée au vieillissement du disque dur... c'est le cas par exemple du nombre de démarrages/arrêts du pc (Start_Stop_Count).

Les données de type "Pre_fail" concernent des indications pouvant laisser suspecter une usure anormale ou une panne... c'est le cas par exemple du nombre de secteurs réalloués (Reallocated_Sector_Ct).

Ceci étant dit, la colonne type indiquant seulement le type de données, les mentions "Pre_fail" et "Old_age" apparaissent dans cette colonne même sur un disque dur neuf.

Je pense que ton disque dur est celui d'un portable. Parce qu'il ne me semble pas que le nombre de "Load_Cycle_Count" atteigne de telles valeurs sur un fixe.

Par ailleurs, ces 820538, c'est beaucoup, la valeur maximale habituellement mentionnée étant de 600000. Mais il ne s'agit là que d'une moyenne fictive des indications données par les constructeurs... Et cela dépend des disques et des ordinateurs... Je trouve cependant que cette valeur est élevée par rapport aux 1799 heures de fonctionnement de cet ordinateur.

Voilà ... pour le reste, je suis en train de m'intéresser aux données Smart, mais je ne suis pas un spécialiste... Certaines valeurs semblent particulièrement élevées... mais il n'est pas certain que ce soit un problème.

Je peux simplement dire que "Reallocated_Sector_Ct", c'est plutà´t un bon signe.

Mais d'autres pourront compléter.

Dernière modification par Sorbus (Le 15/11/2007, à 17:38)

compte supprimé · Le 15/11/2007, à 17:51

Bonjour,

Vérifie si l'option 'smart' est activée dans le bios.
Moi j'ai eu un message d'alerte du bios au démarrage avant que le disque rende l'à¢me (sur un compaq des années 2000, donc je pense que ça devrait le faire sur la plupart des bios actuels).
Je m'imagine que tant que le bios ne pipe mot, ça doit encore être bon.
Cela dit, il vaut mieux prévenir que guérir... Sauvegardes ! Surtout s'il y a des petites alertes lors de la vérification des fs.

A+

Dernière modification par faustus (Le 15/11/2007, à 17:59)

gagarine · Le 15/11/2007, à 18:09

Merci pour vos réponses...
pour finir mon disque est mort mais heureusement la garantie d'IBM est très efficace et toute mes données était backupé.

Après réinstallation je me suis un peu documenté et je suis tombé sur ce bug tueur de disque:
https://bugs.launchpad.net/ubuntu/+source/acpi-support/+bug/59695

Et effectivement mon nouveau disque était affecté.... donc je le redis ici (on trouve l'info un peu partout sur le net)

ATTENTION A VOS DISQUES DE PORTABLE

C'est d'ailleurs complètement dingue que ubuntu ne passe pas cette issue en critical!!!

EDIT: pour info mon portable t60p avait 7 mois...

Dernière modification par gagarine (Le 15/11/2007, à 18:13)

compte supprimé · Le 15/11/2007, à 18:37

D'autant plus dingue que le problème ne semble même pas récent !

Sorbus · Le 15/11/2007, à 21:17

Bonjour gagarine,

J'ai donc vu ton message trop tard... et de toute façon, il n'y avait semble-t-il plus grand chose à faire. Simplement, en complément pour ceux qui voudraient surveiller les données Smart, je renvoie à ce fil :
http://forum.ubuntu-fr.org/viewtopic.php?id=165399
--> possibilité de les afficher régulièrement avec conky
--> possibilité d'en enregistrer l'historique dans un script lancé au démarrage.

A améliorer sans doute, mais ça peut aider.

Et je note aussi le conseil de faustus :

Vérifie si l'option 'smart' est activée dans le bios.

@+

compte supprimé · Le 16/11/2007, à 03:42

Il faudrait demander à gagarine si elle était activée chez lui, et si le bios a donné l'alerte avant que ça ne crashe. Sur ma bécane (vieille de 3 mois), elle n'était pas activée, tandis qu'elle l'était sur un compaq beaucoup plus vieux, qui a effectivement prévenu un bout de temps avant le crash que le disque n'en avait plus pour longtemps (c'était même ch..., mais bon, du coup j'ai fait des sauvegardes plus attentives).
Je pense que ça ne devrait pas avoir d'incidence, de l'activer, sur le fonctionnement du reste du bios (en tous cas je ne constate aucune différence depuis que l'ai activée).

A+

Dernière modification par faustus (Le 16/11/2007, à 03:49)

gagarine · Le 16/11/2007, à 12:03

Hello,

Pour moi le problème n'est pas que mon disque dur soit mort. Bon effectivement sa aurait été sympa que mon Bio dise quelque chose (apparemment j'avais pas encore dépassé les limites théorique)... mais vu que de toute façon j'ai vu ça moi même avant le crashe, ça ne change rien.

Le problème pour moi c'est que Ubuntu fait BIEN trop de Load_Cycle sur les portable (chez moi plusieurs par minute...) et que pour finir ça casse le disque.
Le VRAIS problème c'est qu'il laisse ce bug en wishlist seulement sur launchpad.

EDIT: très sympa conky

Dernière modification par gagarine (Le 16/11/2007, à 12:07)

compte supprimé · Le 16/11/2007, à 14:14

Entièrement d'accord.
Le truc du smart c'est juste un parachute de sauvetage, mais ça n'empêche par le zinc de crasher prématurément !

Sorbus · Le 16/11/2007, à 16:35

Ce message juste pour relativiser un peu. Dumoins ne pas généraliser. Mon portable est sous Ubuntu, et il n'a pas eu d'augmentation anormale de Load_Cycle. En parcourant les forums pour m'informer sur le sujet, j'ai vu beaucoup d'informations contradictoires.

Certains constatant aussi ce phénomène en étant sous Windows ou Mandriva ou d'autres distributions. Des éléments contradictoires aussi sur le mode laptop activé ou non, et s'il est activé, sur sa configuration... Des éléments contradictoires aussi sur le moyen d'y remédier... avec l'idée d'un blocage des têtes pouvant entraà®ner non seulement une augmentation de la consommation, mais aussi des problèmes de surchauffe... (vrai ou faux, je n'en sais rien).

L'existence du bug semblerait donc dépendre d'une interaction complexe entre OS, configurations, Bios et matériel. On peut évidemment souhaiter que la question soit éclaircie et résolue au plus vite. Et dans l'immédiat, nous donner les moyens de "surveillance informatique" de nos disques durs de façon à être alertés très vite s'il y a anomalie (comme une augmentation rapide du Load_Cycle_Count), dès l'apparition du phénomène. Dans ce cas, les données smart peuvent permettre d'éviter le crash en prenant les mesures nécessaires (si on les trouve au milieu des infos contradictoires...).

D'oà¹ l'idée d'utiliser conky + un petit script pour conserver l'historique.

Dernière modification par Sorbus (Le 16/11/2007, à 16:40)

compte supprimé · Le 16/11/2007, à 16:55

Tout-à -fait d'accord avec ça :
nous donner les moyens de "surveillance informatique" de nos disques durs

Mieux, ça devrait être intégré d'office dans les distributions et installé, en attendant que le problème qu'il y a derrière soit réglé (si tant est que ce soit possible).
Parce que pour l'instant, on fait surtout comme s'il n'y avait pas de problème (tout au plus un problème mineur), ce qui fait que lambda en ignore jusqu'à l'existence... qu'il apprend le jour de la mort de son disque, s'il est concerné ! C'est bien ce qui est arrivé à gagarine, en 7 mois, ce qui est tout de même peu !
Et je ne suis pas sûr que les constructeurs de disque accepteront bien longtemps d'en faire les frais...

A+

Sorbus · Le 20/11/2007, à 20:29

Oui, oui Faustus

Mais là , j'essayais de répondre à sirius10, pour la question qu'il posait plus précisément sur ses :

Reallocated_Sector_Ct --> 8589934592000
Reallocated_Event_Count --> 451936256
Run_Out_Cancel --> 3728085352018

Je ne sais tout simplement pas s'il faut prendre au sérieux ces valeurs. Il y a parfois des bugs dans les résultats donnés par Smart... j'ai vu dans un post je ne sais plus oà¹ une donnée smart indiquant un truc aberrant pour la température du disque dur (je ne sais si c'était plusieurs centaines ou plusieurs milliers de degrés ... non... je ne veux pas dire "cool"... je mets seulement les lunettes noires pour observer le disque dur en fusion...)

Je pense que globalement, les données smart sont des indicateurs fiables... mais qu'il y a des fois des loupés... et qu'il nous manque pour certains critères un mode d'emploi nous permettant de les interpréter.

Dans le cas des données de sirius10, s'il ne s'agit pas d'un bug de smart, je serais plutà´t inquiet quant à la durée de vie du disque vu le nombre de secteur réalloués; et je ne sais pas interpréter les autres valeurs.

Dernière modification par Sorbus (Le 20/11/2007, à 20:30)

compte supprimé · Le 20/11/2007, à 20:47

Mais chez Sirius10, tout le reste a l'air très normal. Je pense qu'il s'agit de valeurs aberrantes...
Il faudrait avoir tout, pour comparer, mais le reste des données de Sirius10 est sur un autre topic. Et il y en a bien 3 ou 4 sur le même sujet, des topics... ce qui rend les rapprochements assez difficiles.

De toute façons, je pense qu'il faut tout diviser par Power_On_Hours, converti en minutes. Là on voit mieux si ça a des chances d'être une valeur fiable (normale ou excessive) ou bien une valeur aberrante.
Supposons 2000 heures d'usage (Sirius10 connaà®t sa valeur exacte).
à‡a ferait : 8589934592000/120000 = 71582788 secteurs réalloués par minute
A 512 octets le secteur (ou plus ?) ça donne 36560 Mo / minute (si je ne me suis pas trompé dans le calcul)
Autant dire que son disque est particulièrement rapide ... surtout s'il ne le voit pas écrire en continu !

Mais attention ; ce genre de calcul ne prouve pas qu'il n'y a pas de problème, mais seulement que le thermomètre est cassé !

A+

Edit : une valeur piochée dans les données de gagarine
190 Temperature_Celsius 0x0022 073 045 045 Old_age Always In_the_past 454164507
On ne peut même pas dire qu'il manque une virgule, parce que la première valeur élevée qu'on obtient en en mettant une, c'est 454° (la température du sodium liquide, à un poil près !)
En revanche, va voir les load_cycles / power_on_hours (converti en minutes). à‡a parque beaucoup, mais la valeur ne paraà®t pas aberrante. Juste trop élevée !

Dernière modification par faustus (Le 20/11/2007, à 21:05)

Sorbus · Le 20/11/2007, à 21:47

Temperature_Celsius 454164507

Ah oui... En effet... Je ne l'avais pas vu... ou oublié.
Et pour le reste, nous sommes bien d'accord.

Source d'information complémentaire à propos de Smart :
http://fr.wikipedia.org/wiki/Self-Monit … Technology

Dernière modification par Sorbus (Le 20/11/2007, à 22:19)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 23/10/2007, à 10:48

[BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#2 Le 15/11/2007, à 17:36

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#3 Le 15/11/2007, à 17:51

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#4 Le 15/11/2007, à 18:09

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#5 Le 15/11/2007, à 18:37

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#6 Le 15/11/2007, à 21:17

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#7 Le 16/11/2007, à 03:42

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#8 Le 16/11/2007, à 12:03

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#9 Le 16/11/2007, à 14:14

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#10 Le 16/11/2007, à 16:35

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#11 Le 16/11/2007, à 16:55

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#12 Le 20/11/2007, à 20:29

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#13 Le 20/11/2007, à 20:47

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

#14 Le 20/11/2007, à 21:47

Re : [BUG] SMART Load_Cycle_Count > 820538 -> HD mort

Pied de page des forums