Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 30/08/2006, à 13:33

Berneri

[Résolu par changement de DD] buffer I/O errors récurrentes

Salut tout le monde, régulièrement (en fait pratiquement tous les jours), j'ai des erreurs de ce type :

[17179625.468000] end_request: I/O error, dev hdc, sector 3619631
[17179625.468000] Buffer I/O error on device hdc4, logical block 3507176
[17179629.140000] end_request: I/O error, dev hdc, sector 3619632
[17179629.140000] Buffer I/O error on device hdc4, logical block 3507177

Ces erreurs apparaissent souvent sur ma partition hdc1, qui est la racine. fsck efface des inodes soit détruits soit non-utilisés par des entrées, bizarrement, c'est pratiquement toujours les mêmes.
j'ai fait la manip suivante :

sudo smartctl -t short /dev/hdc

qui me donne le résultat suivant :

olivier@olivier-laptop:~$ sudo smartctl -l selftest /dev/hdc
Password:
smartctl version 5.34 [i686-pc-linux-gnu] Copyright (C) 2002-5 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       60%      3308         29081668
# 2  Extended offline    Completed: read failure       60%      3307         29081668
# 3  Short offline       Completed without error       00%      3306         -
# 4  Short offline       Completed without error       00%      3306         -
# 5  Short offline       Completed: read failure       20%      3306         920199

Donc, on dirait qu'il y a un problème. Après avoir surfé sur différents forums, j'ai peur que ces erreurs soient les symptômes d'un DD en fin de vie, ceci dit l'erreur typique dans ce cas est :

"Buffer I/O error on device dm-0, logical block 0”

, ce qui n'a jamais été mon cas.
Si quelqu'un pouvait m'éclairer la lanterne...
Merci d'avance
edit : il se pourrait toutefois que ce soit une erreur due au DMA car :

Aug 29 15:30:35 localhost kernel: [17198880.392000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:35 localhost kernel: [17198880.392000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:35 localhost kernel: [17198880.392000] ide: failed opcode was: unknown
Aug 29 15:30:35 localhost kernel: [17198880.392000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:38 localhost kernel: [17198883.296000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:38 localhost kernel: [17198883.296000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:38 localhost kernel: [17198883.296000] ide: failed opcode was: unknown
Aug 29 15:30:38 localhost kernel: [17198883.296000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:41 localhost kernel: [17198886.200000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:41 localhost kernel: [17198886.200000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:41 localhost kernel: [17198886.200000] ide: failed opcode was: unknown
Aug 29 15:30:41 localhost kernel: [17198886.200000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:44 localhost kernel: [17198889.280000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:44 localhost kernel: [17198889.280000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:44 localhost kernel: [17198889.280000] ide: failed opcode was: unknown
Aug 29 15:30:44 localhost kernel: [17198889.280000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:47 localhost kernel: [17198892.184000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:47 localhost kernel: [17198892.184000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:47 localhost kernel: [17198892.184000] ide: failed opcode was: unknown
Aug 29 15:30:47 localhost kernel: [17198892.184000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:50 localhost kernel: [17198895.088000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:50 localhost kernel: [17198895.088000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:50 localhost kernel: [17198895.088000] ide: failed opcode was: unknown
Aug 29 15:30:50 localhost kernel: [17198895.088000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:53 localhost kernel: [17198897.992000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:53 localhost kernel: [17198897.992000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:53 localhost kernel: [17198897.992000] ide: failed opcode was: unknown
Aug 29 15:30:53 localhost kernel: [17198897.992000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:56 localhost kernel: [17198900.896000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:56 localhost kernel: [17198900.896000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:56 localhost kernel: [17198900.896000] ide: failed opcode was: unknown
Aug 29 15:30:56 localhost kernel: [17198900.896000] end_request: I/O error, dev hda, sector 8
Aug 29 15:30:59 localhost kernel: [17198903.800000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:59 localhost kernel: [17198903.800000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:59 localhost kernel: [17198903.800000] ide: failed opcode was: unknown
Aug 29 15:30:59 localhost kernel: [17198903.800000] end_request: I/O error, dev hda, sector 16
Aug 29 15:31:01 localhost kernel: [17198906.220000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:01 localhost kernel: [17198906.220000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:01 localhost kernel: [17198906.220000] ide: failed opcode was: unknown
Aug 29 15:31:01 localhost kernel: [17198906.220000] end_request: I/O error, dev hda, sector 24
Aug 29 15:31:04 localhost kernel: [17198908.640000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:04 localhost kernel: [17198908.640000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:04 localhost kernel: [17198908.640000] ide: failed opcode was: unknown
Aug 29 15:31:04 localhost kernel: [17198908.640000] end_request: I/O error, dev hda, sector 32
Aug 29 15:31:06 localhost kernel: [17198911.060000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:06 localhost kernel: [17198911.060000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:06 localhost kernel: [17198911.060000] ide: failed opcode was: unknown
Aug 29 15:31:06 localhost kernel: [17198911.060000] end_request: I/O error, dev hda, sector 40
Aug 29 15:31:08 localhost kernel: [17198913.480000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:08 localhost kernel: [17198913.480000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:08 localhost kernel: [17198913.480000] ide: failed opcode was: unknown
Aug 29 15:31:08 localhost kernel: [17198913.480000] end_request: I/O error, dev hda, sector 48
Aug 29 15:31:11 localhost kernel: [17198916.356000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:11 localhost kernel: [17198916.356000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:11 localhost kernel: [17198916.356000] ide: failed opcode was: unknown
Aug 29 15:31:11 localhost kernel: [17198916.356000] end_request: I/O error, dev hda, sector 56
Aug 29 15:31:44 localhost kernel: [17198948.560000] hda: packet command error: status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:44 localhost kernel: [17198948.560000] hda: packet command error: error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:44 localhost kernel: [17198948.560000] ide: failed opcode was: unknown

mais je n'en sais rien. hda est mon lecteur de cd/dvd.

Dernière modification par Berneri (Le 25/10/2006, à 16:45)


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#2 Le 30/08/2006, à 14:28

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Tu as des read failure avec l'adresse.

Tu n'avais pas de FAILING_NOW  dans la colonne WHEN_FAILED ?

Tu as passé aussi badblocks ? voir le man. De préférence sur un fs non monté, et tu pourrais utiliser aussi l'option -n en plus de -sv, quitte à le faire depuis un live cd.

Hors ligne

#3 Le 30/08/2006, à 14:38

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Salut cep, vu je me doutais que tu serais l'un de ceux qui répondraient. Pour répondre à tes questions la colonne WHEN_FAILED ne me donne qu'un signe "moins", je poste la sortie de smartctl -a /dev/hdc:

smartctl version 5.34 [i686-pc-linux-gnu] Copyright (C) 2002-5 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi Travelstar 80GN family
Device Model:     IC25N060ATMR04-0
Serial Number:    MRX309KCH6668H
Firmware Version: MO3OAD4A
User Capacity:    60.011.642.880 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 3a
Local Time is:    Wed Aug 30 14:37:19 2006 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 118) The previous self-test completed having
                                        the read element of the test failed.
Total time to complete Offline
data collection:                 ( 645) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off supp ort.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (  53) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_ FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   085   085   062    Pre-fail  Always       -        2031869
  2 Throughput_Performance  0x0005   100   100   040    Pre-fail  Offline      -        0
  3 Spin_Up_Time            0x0007   181   181   033    Pre-fail  Always       -        1
  4 Start_Stop_Count        0x0012   099   099   000    Old_age   Always       -        1711
  5 Reallocated_Sector_Ct   0x0033   084   084   005    Pre-fail  Always       -        0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -        0
  8 Seek_Time_Performance   0x0005   100   100   040    Pre-fail  Offline      -        0
  9 Power_On_Hours          0x0012   093   093   000    Old_age   Always       -        3310
10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -        0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -        1395
191 G-Sense_Error_Rate      0x000a   100   100   000    Old_age   Always       -        0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -        139
193 Load_Cycle_Count        0x0012   088   088   000    Old_age   Always       -        122349
194 Temperature_Celsius     0x0002   125   125   000    Old_age   Always       -        44 (Lifetime Min/Max 13/63)
196 Reallocated_Event_Count 0x0032   082   082   000    Old_age   Always       -        971
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -        105
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -        0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -        0

SMART Error Log Version: 1
ATA Error Count: 644 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 644 occurred at disk power-on lifetime: 3306 hours (137 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle .

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 ce 61 3b 37 e0  Error: UNC 206 sectors at LBA = 0x00373b61 = 3619681

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 ff 30 3b 37 e0 00      00:01:05.600  READ DMA EXT
  25 00 00 2f 3b 37 e0 00      00:01:02.000  READ DMA EXT
  25 00 00 2f 3a 37 e0 00      00:01:02.000  READ DMA EXT
  25 00 00 2f 39 37 e0 00      00:01:02.000  READ DMA EXT
  25 00 80 af 38 37 e0 00      00:01:01.900  READ DMA EXT

Error 643 occurred at disk power-on lifetime: 3306 hours (137 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle .

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 ce 61 3b 37 e0  Error: UNC 206 sectors at LBA = 0x00373b61 = 3619681

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 00 2f 3b 37 e0 00      00:01:02.000  READ DMA EXT
  25 00 00 2f 3a 37 e0 00      00:01:02.000  READ DMA EXT
  25 00 00 2f 39 37 e0 00      00:01:02.000  READ DMA EXT
  25 00 80 af 38 37 e0 00      00:01:01.900  READ DMA EXT
  25 00 00 af 37 37 e0 00      00:01:01.900  READ DMA EXT

Error 642 occurred at disk power-on lifetime: 3304 hours (137 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle .

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 ad 89 64 90 e0  Error: UNC 173 sectors at LBA = 0x00906489 = 9462921

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 b8 7e 64 90 e0 00      00:03:53.400  READ DMA EXT
  25 00 d8 9e 63 90 e0 00      00:03:53.300  READ DMA EXT
  25 00 08 86 63 90 e0 00      00:03:53.300  READ DMA EXT
  25 00 20 66 63 90 e0 00      00:03:53.300  READ DMA EXT
  25 00 48 06 62 90 e0 00      00:03:53.100  READ DMA EXT

Error 641 occurred at disk power-on lifetime: 3304 hours (137 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle .

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 07 37 64 74 e0  Error: UNC 7 sectors at LBA = 0x00746437 = 7627831

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 08 36 64 74 e0 00      00:03:31.100  READ DMA EXT
  25 00 08 2e 64 74 e0 00      00:03:31.000  READ DMA EXT
  25 00 08 26 64 74 e0 00      00:03:31.000  READ DMA EXT
  25 00 08 1e 64 74 e0 00      00:03:31.000  READ DMA EXT
  25 00 08 16 64 74 e0 00      00:03:30.900  READ DMA EXT

Error 640 occurred at disk power-on lifetime: 3304 hours (137 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle .

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 4f 37 64 74 e0  Error: UNC 79 sectors at LBA = 0x00746437 = 7627831

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 50 36 64 74 e0 00      00:02:31.000  READ DMA EXT
  25 00 58 2e 64 74 e0 00      00:02:27.400  READ DMA EXT
  25 00 60 26 64 74 e0 00      00:02:23.800  READ DMA EXT
  25 00 68 1e 64 74 e0 00      00:02:20.200  READ DMA EXT
  25 00 70 16 64 74 e0 00      00:02:16.600  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA _of_first_error
# 1  Extended offline    Completed: read failure       60%      3308         290 81668
# 2  Extended offline    Completed: read failure       60%      3307         290 81668
# 3  Short offline       Completed without error       00%      3306         -
# 4  Short offline       Completed without error       00%      3306         -
# 5  Short offline       Completed: read failure       20%      3306         920 199

Warning! SMART Selective Self-Test Log Structure error: invalid SMART checksum.
SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je n'ai pas encore essayé badblocks mais je vais tenter le coup à partir du liveCD
Merci


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#4 Le 30/08/2006, à 15:23

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Fréquence d'apparition d'erreurs pendant la lecture
1 Raw_Read_Error_Rate     0x000b   085   085   062    Pre-fail  Always       -        2031869
et Erreurs pendant le positionnement de la tête
7 Seek_Error_Rate         0x000b   100   100   067   

ont des TRESH importants même si inferieurs à VALUE

Une probabilité de panne sur Spin_Up_Time sur la rotation ?

Édit : http://smartlinux.sourceforge.net/smart/attributes.php  pour les attributs et qq explications.

Dernière modification par cep (Le 30/08/2006, à 15:25)

Hors ligne

#5 Le 31/08/2006, à 13:27

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

voilà la sortie de badblocks, exécuté à partir du live CD:

ubuntu@ubuntu:~$ sudo badblocks -n -sv /dev/hdc1
Checking for bad blocks in non-destructive read-write mode
From block 0 to 7646940
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern: done                        940
Pass completed, 0 bad blocks found.
ubuntu@ubuntu:~$ sudo badblocks -n -sv /dev/hdc4
Checking for bad blocks in non-destructive read-write mode
From block 0 to 1791247
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern: done                        247
Pass completed, 0 bad blocks found.

hdc1 est ma partition racine et hdc4 est mon /tmp, qui avait les buffer I/O error hier. je ne sais pas ce que 940 et 247 veulent dire...


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#6 Le 31/08/2006, à 14:33

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Je ne sais pas.

Vérifie dans le temps si ce sont toujours les mêmes secteurs déclarés à problème dans smartctl. Tu verras ainsi si c'est un ancien mappage, ou si la "fatigue" s'accentue.

Essaye aussi de changer de nappe éventuellement.

Si je retrouve mes notes pour réaffecter des données sur des secteurs défectueux, je te les communiquerai (pas simplement marquer un badblock).

Bonne continuation.
cep

Hors ligne

#7 Le 31/08/2006, à 14:38

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

ok, merci beaucoup pour ton aide...


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#8 Le 31/08/2006, à 15:38

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

De rien.

Alors, je ne retrouve pas mes notes, mais pour avoir une idée tu pourrais t'inspirer de :
http://smartmontools.sourceforge.net/BadBlockHowTo.txt

Voir : b = (int)((L-S)*512/B) et les secteurs lba déclarés avec erreurs sur ton smartctl.

Tu n'es pas obligé de faire la réalocation, mais tu peux juste voir avec debugfs (ext3) précisément ce qui est concerné.

Bonne continuation.
cep

Hors ligne

#9 Le 01/09/2006, à 12:18

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Alors j'avance un petit peu dans la résolution de mon problème :

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       60%      3319         29081660
# 2  Short offline       Completed without error       00%      3315         -
# 3  Extended offline    Completed: read failure       60%      3308         29081668
# 4  Extended offline    Completed: read failure       60%      3307         29081668
# 5  Short offline       Completed without error       00%      3306         -
# 6  Short offline       Completed without error       00%      3306         -
# 7  Short offline       Completed: read failure       20%      3306         920199

j'ai regardé dans ma table de partition (ok, elle est bordélique mais quand j'ai installé ubuntu j'étais un noob total):

Disque /dev/hdc: 60.0 Go, 60011642880 octets
255 têtes, 63 secteurs/piste, 7296 cylindres, total 117210240 secteurs
Unités = secteurs de 1 * 512 = 512 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/hdc1         3694950    18988829     7646940   83  Linux
/dev/hdc2   *          63      112454       56196   83  Linux
/dev/hdc3        18988830   117210239    49110705    5  Extended
/dev/hdc4          112455     3694949     1791247+  83  Linux
/dev/hdc5        83152503   117210239    17028868+   b  W95 FAT32
/dev/hdc6        18988956    80132219    30571632   83  Linux
/dev/hdc7        80132283    83152439     1510078+  82  Linux swap / Solaris

Les entrées de la table de partitions ne sont pas dans l'ordre du disque

les blocks qui ne sont pas bons sont dans mon /home et pas dans ma partition racine comme je m'y attendais.
C'est bizarre. Ce qui est plus bizarre c'est que mon / se mettait en read-only après avoir booté (et ce de manière plus ou moins aléatoire, soit très vite, soit plus tard, souvent après un freeze). Je ne sais pas si ce comportement est normal.
A tout hasard, j'ai essayé de me rappeler à partir de quand j'ai eu ces erreurs (je pense que les blocs étaient déjà endommagé quand j'étais encore sous windows), et il apparaît que, sous dapper, elles apparaissent après que j'ai installé avg4linux, avec effacement d'inodes (fsck -y /) qui m'invalident des programmes, ce qui est quand même handicapant. Bon j'ai désinstallé avg4linux, pour l'instant je n'ai pas eu de problèmes, à voir (il faut dire qu'avg voyait des virus là où clamAV n'en voyait pas, de plus fsck s'est mis à effacer ces inodes uniquement après l'installation d'avg, pas avant, est-ce lié ?)
Je vais voir si dans le temps c'est bien cela qui a causé des problèmes...


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#10 Le 01/09/2006, à 12:49

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

utilise la valeur en secteurs : sudo fdisk -lu /dev/hdc   (option -u)
ou avec parted :
sudo parted -s /dev/hdc unit s print 

De même tu peux l'avoir en chs ou cyl à la place de s (secteurs x octets)

Hors ligne

#11 Le 01/09/2006, à 13:00

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Merci cep.
la sortie de fdisk dans mon dernier post est bien celle de fdisk -lu /dev/hdc


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#12 Le 01/09/2006, à 13:33

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Je n'avais pas fait attention au 63 de la hdc2 wink

les lost+found devrait avoir peut-être des éléments dans hdc4 et hdc6

Hors ligne

#13 Le 01/09/2006, à 13:42

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

il n'y a rien dans les lost+found de ces 2 partitions ; par contre, il y a pleins d'inodes ? dans le lost+found de /dev/hdc1.
Edit : ces léléments portent des numéros de #216065 et à 360822 quasiment sans interruption.

Dernière modification par Berneri (Le 01/09/2006, à 13:50)


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#14 Le 01/09/2006, à 14:15

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

En se basant sur la sortie de smartctl  29081660 :

dev/hdc6        18988956    80132219

29081660 - 18988956 = 10092704

si la taille des blocks est de 4096 (à vérifier par tune2fs -l)

10092704 * 512 / 4096 = 1261588

Ensuite, dans debugfs, faire un icheck 1261588 puis ncheck de la valeur retournée.

Cela te donnera peut-être un nom de fichier (extension).

En outre dans /var/log/messages tu n'as pas d'erreurs avec LBAsect=29081660 ?

grep -i lba /var/log/messages  | sort | uniq

Dernière modification par cep (Le 01/09/2006, à 14:16)

Hors ligne

#15 Le 01/09/2006, à 17:49

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

cep, je n'ai pas encore fait ce que tu m'as dit... Au boulot, donc relativement peu de temps.
Ceci dit, mon portable a planté pendant que je surfais (ce n'est pas la première fois). Pas d'utilisation possible des magic keys. Donc hard-reboot et là, à nouveau buffer I/O errors, et effacement de certains inodes. La sortie de smartctl -A /dev/hdc donne:

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   062    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   100   100   040    Pre-fail  Offline      -       0
  3 Spin_Up_Time            0x0007   175   175   033    Pre-fail  Always       -       1
  4 Start_Stop_Count        0x0012   099   099   000    Old_age   Always       -       1718
  5 Reallocated_Sector_Ct   0x0033   083   083   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   040    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0012   093   093   000    Old_age   Always       -       3331
10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1399
191 G-Sense_Error_Rate      0x000a   100   100   000    Old_age   Always       -       65536
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       139
193 Load_Cycle_Count        0x0012   088   088   000    Old_age   Always       -       122398
194 Temperature_Celsius     0x0002   125   125   000    Old_age   Always       -       44 (Lifetime Min/Max 13/63)
196 Reallocated_Event_Count 0x0032   082   082   000    Old_age   Always       -       995
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       107
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

Avec Current_Pending_Sector qui me donne 107 à la place de 106. D'ailleurs j'aimerais savoir si cela signifie qu'il ne peut pas lire 107 secteurs ou si cela signifie qu'il n'a pas pu lire 107 secteurs. Dans le premier cas, c'est pas bon, si ce nombre augmente je vais finir par ne plus pouvoir me servir de mon DD. Ce qui va peut-être me déterminer à changer de DD


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#16 Le 01/09/2006, à 18:24

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

107 en attente de "réallocation".

Et les secteurs ne sont plus les mêmes.

Là il va encore faire du mapping. Tu devrais faire des sauvegardes wink À ce trains, c'est le fs qui va sauter.

p.s. accessoirement, tu devrais tester ton alimentation. Si je me souviens bien il me semble avoir vu des problèmes à la relance.

Dernière modification par cep (Le 01/09/2006, à 18:33)

Hors ligne

#17 Le 04/09/2006, à 10:20

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

107 en attente de "réallocation".

Et les secteurs ne sont plus les mêmes.

Là il va encore faire du mapping. Tu devrais faire des sauvegardes wink À ce trains, c'est le fs qui va sauter

Que préconises-tu formatage low level ou changer de DD ?


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#18 Le 04/09/2006, à 10:37

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Avec le soft du constructeur ? pourquoi pas. Mais sera sans effet si le problème est aussi mécanique.

L'idéal serait d'essayer un autre disque en situation smile

En parallèle, sur certains disques ce sont les réglages hdparm qui provoques des "failures can result in massive filesystem corruption" (man hdparm, option -m).

Hors ligne

#19 Le 04/09/2006, à 12:33

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

grep -i lba /var/log/messages  | sort | uniq

ne me donne strictement rien (retour au prompt)
Cep, pour l'alimentation, c'est peut-être le cas. J'ai remarqué que le / se mettait souvent en read-only lorsque la batterie se chargeait (excuse, j'ai oublié de préciser que j'étais sur un portable ; asus A4G), du coup, c'est peut-être dû à çà, mais comment en être sûr ? Quand la batterie est chargée, je n'ai pratiquement jamais de problèmes

Dernière modification par Berneri (Le 04/09/2006, à 14:49)


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#20 Le 05/09/2006, à 16:17

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Bon alors j'ai testé le disque dur avec le soft du constructeur (drive fitness test d'Hitachi), il n'a pas sorti de problèmes avec smart ou l'électronique, seulement un problèmes de blocs. Je vais donc tenter de réallouer les secteurs. Pour voir ce qui se passera. Par ailleurs, le nombre de secteurs en attente d'être réalloués augmente avec chaque boot, j'en suis à 112.

En tout cas, cep merci de ton aide.

Dernière modification par Berneri (Le 05/09/2006, à 16:18)


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#21 Le 06/09/2006, à 19:04

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Ben je me suis servis du soft du constructeur pour réallouer les blocs non-lisibles: un smartctl -t long donne :

# 1  Short offline       Completed without error       00%      3358         -
# 2  Extended offline    Completed without error       00%      3352         -
# 3  Extended offline    Interrupted (host reset)      80%      3351         -
# 4  Extended offline    Completed: read failure       80%      3347         9380710

J'ai simplement mis les 3 derniers. Les longs foiraient tout le temps ce qui ne semble plus être le cas. Un signe d'amélioration ?


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#22 Le 06/09/2006, à 19:11

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Il semblerait, surtout si le disque a été utilisé un certain temps depuis.

Les "TRESH" sont à zéro ? probablement non.

Si ça continue, essaye de faire un hdparm -d0  sur le disque pour voir si le dma ne serait pas en partie responsable, après avoir repéré les adresses des problèmes.

Hors ligne

#23 Le 08/09/2006, à 19:35

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Bien, j'ai retesté hier en faisant

sudo smartctl -t long /dev/hdc

et pas de problèmes.
Par contre les TRESH n'ont pas bougé, que ce soit avec ou sans activation des DMA. Ceci dit, / ne se met plus en read-only au milieu de la journée comme avant et les plantages intempestifs de la machine n'apparaissent plus.

À voir avec le temps, je pense


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne

#24 Le 08/09/2006, à 19:48

cep

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Merci du retour d'info.

Par curiosité, tu as le détail de ce que fait le soft constructeur "pour réallouer les blocs non-lisibles". C'est du bas niveau ? ou une sorte de dumpefs ?

Cordialement.
cep

Hors ligne

#25 Le 08/09/2006, à 19:51

Berneri

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

ce soft (drive fitness test d'hitachi) réécrit des 0 sur les secteurs défectueux d'après ce que j'ai compris. Donc plutôt genre low-level apparemment.

En tout cas, merci pour ton aide.

Dernière modification par Berneri (Le 08/09/2006, à 19:56)


"La liberté d'autrui étend la mienne à l'infini."
M. Bakounine
« Le capitalisme ne se discute pas, il se détruit. »
Buenaventura Durruti

Hors ligne