[Résolu par changement de DD] buffer I/O errors récurrentes

Berneri · Le 30/08/2006, à 13:33

Salut tout le monde, régulièrement (en fait pratiquement tous les jours), j'ai des erreurs de ce type :

[17179625.468000] end_request: I/O error, dev hdc, sector 3619631
[17179625.468000] Buffer I/O error on device hdc4, logical block 3507176
[17179629.140000] end_request: I/O error, dev hdc, sector 3619632
[17179629.140000] Buffer I/O error on device hdc4, logical block 3507177

Ces erreurs apparaissent souvent sur ma partition hdc1, qui est la racine. fsck efface des inodes soit détruits soit non-utilisés par des entrées, bizarrement, c'est pratiquement toujours les mêmes.
j'ai fait la manip suivante :

sudo smartctl -t short /dev/hdc

qui me donne le résultat suivant :

olivier@olivier-laptop:~$ sudo smartctl -l selftest /dev/hdc
Password:
smartctl version 5.34 [i686-pc-linux-gnu] Copyright (C) 2002-5 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       60%      3308         29081668
# 2  Extended offline    Completed: read failure       60%      3307         29081668
# 3  Short offline       Completed without error       00%      3306         -
# 4  Short offline       Completed without error       00%      3306         -
# 5  Short offline       Completed: read failure       20%      3306         920199

Donc, on dirait qu'il y a un problème. Après avoir surfé sur différents forums, j'ai peur que ces erreurs soient les symptômes d'un DD en fin de vie, ceci dit l'erreur typique dans ce cas est :

"Buffer I/O error on device dm-0, logical block 0”

, ce qui n'a jamais été mon cas.
Si quelqu'un pouvait m'éclairer la lanterne...
Merci d'avance
edit : il se pourrait toutefois que ce soit une erreur due au DMA car :

Aug 29 15:30:35 localhost kernel: [17198880.392000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:35 localhost kernel: [17198880.392000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:35 localhost kernel: [17198880.392000] ide: failed opcode was: unknown
Aug 29 15:30:35 localhost kernel: [17198880.392000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:38 localhost kernel: [17198883.296000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:38 localhost kernel: [17198883.296000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:38 localhost kernel: [17198883.296000] ide: failed opcode was: unknown
Aug 29 15:30:38 localhost kernel: [17198883.296000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:41 localhost kernel: [17198886.200000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:41 localhost kernel: [17198886.200000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:41 localhost kernel: [17198886.200000] ide: failed opcode was: unknown
Aug 29 15:30:41 localhost kernel: [17198886.200000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:44 localhost kernel: [17198889.280000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:44 localhost kernel: [17198889.280000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:44 localhost kernel: [17198889.280000] ide: failed opcode was: unknown
Aug 29 15:30:44 localhost kernel: [17198889.280000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:47 localhost kernel: [17198892.184000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:47 localhost kernel: [17198892.184000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:47 localhost kernel: [17198892.184000] ide: failed opcode was: unknown
Aug 29 15:30:47 localhost kernel: [17198892.184000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:50 localhost kernel: [17198895.088000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:50 localhost kernel: [17198895.088000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:50 localhost kernel: [17198895.088000] ide: failed opcode was: unknown
Aug 29 15:30:50 localhost kernel: [17198895.088000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:53 localhost kernel: [17198897.992000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:53 localhost kernel: [17198897.992000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:53 localhost kernel: [17198897.992000] ide: failed opcode was: unknown
Aug 29 15:30:53 localhost kernel: [17198897.992000] end_request: I/O error, dev hda, sector 0
Aug 29 15:30:56 localhost kernel: [17198900.896000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:56 localhost kernel: [17198900.896000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:56 localhost kernel: [17198900.896000] ide: failed opcode was: unknown
Aug 29 15:30:56 localhost kernel: [17198900.896000] end_request: I/O error, dev hda, sector 8
Aug 29 15:30:59 localhost kernel: [17198903.800000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:30:59 localhost kernel: [17198903.800000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:30:59 localhost kernel: [17198903.800000] ide: failed opcode was: unknown
Aug 29 15:30:59 localhost kernel: [17198903.800000] end_request: I/O error, dev hda, sector 16
Aug 29 15:31:01 localhost kernel: [17198906.220000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:01 localhost kernel: [17198906.220000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:01 localhost kernel: [17198906.220000] ide: failed opcode was: unknown
Aug 29 15:31:01 localhost kernel: [17198906.220000] end_request: I/O error, dev hda, sector 24
Aug 29 15:31:04 localhost kernel: [17198908.640000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:04 localhost kernel: [17198908.640000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:04 localhost kernel: [17198908.640000] ide: failed opcode was: unknown
Aug 29 15:31:04 localhost kernel: [17198908.640000] end_request: I/O error, dev hda, sector 32
Aug 29 15:31:06 localhost kernel: [17198911.060000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:06 localhost kernel: [17198911.060000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:06 localhost kernel: [17198911.060000] ide: failed opcode was: unknown
Aug 29 15:31:06 localhost kernel: [17198911.060000] end_request: I/O error, dev hda, sector 40
Aug 29 15:31:08 localhost kernel: [17198913.480000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:08 localhost kernel: [17198913.480000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:08 localhost kernel: [17198913.480000] ide: failed opcode was: unknown
Aug 29 15:31:08 localhost kernel: [17198913.480000] end_request: I/O error, dev hda, sector 48
Aug 29 15:31:11 localhost kernel: [17198916.356000] hda: media error (bad sector): status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:11 localhost kernel: [17198916.356000] hda: media error (bad sector): error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:11 localhost kernel: [17198916.356000] ide: failed opcode was: unknown
Aug 29 15:31:11 localhost kernel: [17198916.356000] end_request: I/O error, dev hda, sector 56
Aug 29 15:31:44 localhost kernel: [17198948.560000] hda: packet command error: status=0x51 { DriveReady SeekComplete Error }
Aug 29 15:31:44 localhost kernel: [17198948.560000] hda: packet command error: error=0x30 { LastFailedSense=0x03 }
Aug 29 15:31:44 localhost kernel: [17198948.560000] ide: failed opcode was: unknown

mais je n'en sais rien. hda est mon lecteur de cd/dvd.

Dernière modification par Berneri (Le 25/10/2006, à 16:45)

cep · Le 30/08/2006, à 14:28

Tu as des read failure avec l'adresse.

Tu n'avais pas de FAILING_NOW dans la colonne WHEN_FAILED ?

Tu as passé aussi badblocks ? voir le man. De préférence sur un fs non monté, et tu pourrais utiliser aussi l'option -n en plus de -sv, quitte à le faire depuis un live cd.

Berneri · Le 30/08/2006, à 14:38

Salut cep, vu je me doutais que tu serais l'un de ceux qui répondraient. Pour répondre à tes questions la colonne WHEN_FAILED ne me donne qu'un signe "moins", je poste la sortie de smartctl -a /dev/hdc:

smartctl version 5.34 [i686-pc-linux-gnu] Copyright (C) 2002-5 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Model Family: Hitachi Travelstar 80GN family
Device Model: IC25N060ATMR04-0
Serial Number: MRX309KCH6668H
Firmware Version: MO3OAD4A
User Capacity: 60.011.642.880 bytes
Device is: In smartctl database [for details use: -P show]
ATA Version is: 6
ATA Standard is: ATA/ATAPI-6 T13 1410D revision 3a
Local Time is: Wed Aug 30 14:37:19 2006 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 118) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: ( 645) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off supp ort.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 53) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_ FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 085 085 062 Pre-fail Always - 2031869
2 Throughput_Performance 0x0005 100 100 040 Pre-fail Offline - 0
3 Spin_Up_Time 0x0007 181 181 033 Pre-fail Always - 1
4 Start_Stop_Count 0x0012 099 099 000 Old_age Always - 1711
5 Reallocated_Sector_Ct 0x0033 084 084 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 100 100 040 Pre-fail Offline - 0
9 Power_On_Hours 0x0012 093 093 000 Old_age Always - 3310
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1395
191 G-Sense_Error_Rate 0x000a 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 139
193 Load_Cycle_Count 0x0012 088 088 000 Old_age Always - 122349
194 Temperature_Celsius 0x0002 125 125 000 Old_age Always - 44 (Lifetime Min/Max 13/63)
196 Reallocated_Event_Count 0x0032 082 082 000 Old_age Always - 971
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 105
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
SMART Error Log Version: 1
ATA Error Count: 644 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 644 occurred at disk power-on lifetime: 3306 hours (137 days + 18 hours)
When the command that caused the error occurred, the device was active or idle .
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 ce 61 3b 37 e0 Error: UNC 206 sectors at LBA = 0x00373b61 = 3619681
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 ff 30 3b 37 e0 00 00:01:05.600 READ DMA EXT
25 00 00 2f 3b 37 e0 00 00:01:02.000 READ DMA EXT
25 00 00 2f 3a 37 e0 00 00:01:02.000 READ DMA EXT
25 00 00 2f 39 37 e0 00 00:01:02.000 READ DMA EXT
25 00 80 af 38 37 e0 00 00:01:01.900 READ DMA EXT
Error 643 occurred at disk power-on lifetime: 3306 hours (137 days + 18 hours)
When the command that caused the error occurred, the device was active or idle .
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 ce 61 3b 37 e0 Error: UNC 206 sectors at LBA = 0x00373b61 = 3619681
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 00 2f 3b 37 e0 00 00:01:02.000 READ DMA EXT
25 00 00 2f 3a 37 e0 00 00:01:02.000 READ DMA EXT
25 00 00 2f 39 37 e0 00 00:01:02.000 READ DMA EXT
25 00 80 af 38 37 e0 00 00:01:01.900 READ DMA EXT
25 00 00 af 37 37 e0 00 00:01:01.900 READ DMA EXT
Error 642 occurred at disk power-on lifetime: 3304 hours (137 days + 16 hours)
When the command that caused the error occurred, the device was active or idle .
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 ad 89 64 90 e0 Error: UNC 173 sectors at LBA = 0x00906489 = 9462921
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 b8 7e 64 90 e0 00 00:03:53.400 READ DMA EXT
25 00 d8 9e 63 90 e0 00 00:03:53.300 READ DMA EXT
25 00 08 86 63 90 e0 00 00:03:53.300 READ DMA EXT
25 00 20 66 63 90 e0 00 00:03:53.300 READ DMA EXT
25 00 48 06 62 90 e0 00 00:03:53.100 READ DMA EXT
Error 641 occurred at disk power-on lifetime: 3304 hours (137 days + 16 hours)
When the command that caused the error occurred, the device was active or idle .
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 07 37 64 74 e0 Error: UNC 7 sectors at LBA = 0x00746437 = 7627831
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 08 36 64 74 e0 00 00:03:31.100 READ DMA EXT
25 00 08 2e 64 74 e0 00 00:03:31.000 READ DMA EXT
25 00 08 26 64 74 e0 00 00:03:31.000 READ DMA EXT
25 00 08 1e 64 74 e0 00 00:03:31.000 READ DMA EXT
25 00 08 16 64 74 e0 00 00:03:30.900 READ DMA EXT
Error 640 occurred at disk power-on lifetime: 3304 hours (137 days + 16 hours)
When the command that caused the error occurred, the device was active or idle .
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 4f 37 64 74 e0 Error: UNC 79 sectors at LBA = 0x00746437 = 7627831
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 50 36 64 74 e0 00 00:02:31.000 READ DMA EXT
25 00 58 2e 64 74 e0 00 00:02:27.400 READ DMA EXT
25 00 60 26 64 74 e0 00 00:02:23.800 READ DMA EXT
25 00 68 1e 64 74 e0 00 00:02:20.200 READ DMA EXT
25 00 70 16 64 74 e0 00 00:02:16.600 READ DMA EXT
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA _of_first_error
# 1 Extended offline Completed: read failure 60% 3308 290 81668
# 2 Extended offline Completed: read failure 60% 3307 290 81668
# 3 Short offline Completed without error 00% 3306 -
# 4 Short offline Completed without error 00% 3306 -
# 5 Short offline Completed: read failure 20% 3306 920 199
Warning! SMART Selective Self-Test Log Structure error: invalid SMART checksum.
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je n'ai pas encore essayé badblocks mais je vais tenter le coup à partir du liveCD
Merci

cep · Le 30/08/2006, à 15:23

Fréquence d'apparition d'erreurs pendant la lecture
1 Raw_Read_Error_Rate 0x000b 085 085 062 Pre-fail Always - 2031869
et Erreurs pendant le positionnement de la tête
7 Seek_Error_Rate 0x000b 100 100 067

ont des TRESH importants même si inferieurs à VALUE

Une probabilité de panne sur Spin_Up_Time sur la rotation ?

Édit : http://smartlinux.sourceforge.net/smart/attributes.php pour les attributs et qq explications.

Dernière modification par cep (Le 30/08/2006, à 15:25)

Berneri · Le 31/08/2006, à 13:27

voilà la sortie de badblocks, exécuté à partir du live CD:

ubuntu@ubuntu:~$ sudo badblocks -n -sv /dev/hdc1
Checking for bad blocks in non-destructive read-write mode
From block 0 to 7646940
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern: done                        940
Pass completed, 0 bad blocks found.
ubuntu@ubuntu:~$ sudo badblocks -n -sv /dev/hdc4
Checking for bad blocks in non-destructive read-write mode
From block 0 to 1791247
Checking for bad blocks (non-destructive read-write test)
Testing with random pattern: done                        247
Pass completed, 0 bad blocks found.

hdc1 est ma partition racine et hdc4 est mon /tmp, qui avait les buffer I/O error hier. je ne sais pas ce que 940 et 247 veulent dire...

cep · Le 31/08/2006, à 14:33

Je ne sais pas.

Vérifie dans le temps si ce sont toujours les mêmes secteurs déclarés à problème dans smartctl. Tu verras ainsi si c'est un ancien mappage, ou si la "fatigue" s'accentue.

Essaye aussi de changer de nappe éventuellement.

Si je retrouve mes notes pour réaffecter des données sur des secteurs défectueux, je te les communiquerai (pas simplement marquer un badblock).

Bonne continuation.
cep

Berneri · Le 31/08/2006, à 14:38

ok, merci beaucoup pour ton aide...

cep · Le 31/08/2006, à 15:38

De rien.

Alors, je ne retrouve pas mes notes, mais pour avoir une idée tu pourrais t'inspirer de :
http://smartmontools.sourceforge.net/BadBlockHowTo.txt

Voir : b = (int)((L-S)*512/B) et les secteurs lba déclarés avec erreurs sur ton smartctl.

Tu n'es pas obligé de faire la réalocation, mais tu peux juste voir avec debugfs (ext3) précisément ce qui est concerné.

Bonne continuation.
cep

Berneri · Le 01/09/2006, à 12:18

Alors j'avance un petit peu dans la résolution de mon problème :

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       60%      3319         29081660
# 2  Short offline       Completed without error       00%      3315         -
# 3  Extended offline    Completed: read failure       60%      3308         29081668
# 4  Extended offline    Completed: read failure       60%      3307         29081668
# 5  Short offline       Completed without error       00%      3306         -
# 6  Short offline       Completed without error       00%      3306         -
# 7  Short offline       Completed: read failure       20%      3306         920199

j'ai regardé dans ma table de partition (ok, elle est bordélique mais quand j'ai installé ubuntu j'étais un noob total):

Disque /dev/hdc: 60.0 Go, 60011642880 octets
255 têtes, 63 secteurs/piste, 7296 cylindres, total 117210240 secteurs
Unités = secteurs de 1 * 512 = 512 octets

Périphérique Amorce    Début         Fin      Blocs    Id  Système
/dev/hdc1         3694950    18988829     7646940   83  Linux
/dev/hdc2   *          63      112454       56196   83  Linux
/dev/hdc3        18988830   117210239    49110705    5  Extended
/dev/hdc4          112455     3694949     1791247+  83  Linux
/dev/hdc5        83152503   117210239    17028868+   b  W95 FAT32
/dev/hdc6        18988956    80132219    30571632   83  Linux
/dev/hdc7        80132283    83152439     1510078+  82  Linux swap / Solaris

Les entrées de la table de partitions ne sont pas dans l'ordre du disque

les blocks qui ne sont pas bons sont dans mon /home et pas dans ma partition racine comme je m'y attendais.
C'est bizarre. Ce qui est plus bizarre c'est que mon / se mettait en read-only après avoir booté (et ce de manière plus ou moins aléatoire, soit très vite, soit plus tard, souvent après un freeze). Je ne sais pas si ce comportement est normal.
A tout hasard, j'ai essayé de me rappeler à partir de quand j'ai eu ces erreurs (je pense que les blocs étaient déjà endommagé quand j'étais encore sous windows), et il apparaît que, sous dapper, elles apparaissent après que j'ai installé avg4linux, avec effacement d'inodes (fsck -y /) qui m'invalident des programmes, ce qui est quand même handicapant. Bon j'ai désinstallé avg4linux, pour l'instant je n'ai pas eu de problèmes, à voir (il faut dire qu'avg voyait des virus là où clamAV n'en voyait pas, de plus fsck s'est mis à effacer ces inodes uniquement après l'installation d'avg, pas avant, est-ce lié ?)
Je vais voir si dans le temps c'est bien cela qui a causé des problèmes...

cep · Le 01/09/2006, à 12:49

utilise la valeur en secteurs : sudo fdisk -lu /dev/hdc (option -u)
ou avec parted :
sudo parted -s /dev/hdc unit s print

De même tu peux l'avoir en chs ou cyl à la place de s (secteurs x octets)

Berneri · Le 01/09/2006, à 13:00

Merci cep.
la sortie de fdisk dans mon dernier post est bien celle de fdisk -lu /dev/hdc

cep · Le 01/09/2006, à 13:33

Je n'avais pas fait attention au 63 de la hdc2

les lost+found devrait avoir peut-être des éléments dans hdc4 et hdc6

Berneri · Le 01/09/2006, à 13:42

il n'y a rien dans les lost+found de ces 2 partitions ; par contre, il y a pleins d'inodes ? dans le lost+found de /dev/hdc1.
Edit : ces léléments portent des numéros de #216065 et à 360822 quasiment sans interruption.

Dernière modification par Berneri (Le 01/09/2006, à 13:50)

cep · Le 01/09/2006, à 14:15

En se basant sur la sortie de smartctl 29081660 :

dev/hdc6 18988956 80132219

29081660 - 18988956 = 10092704

si la taille des blocks est de 4096 (à vérifier par tune2fs -l)

10092704 * 512 / 4096 = 1261588

Ensuite, dans debugfs, faire un icheck 1261588 puis ncheck de la valeur retournée.

Cela te donnera peut-être un nom de fichier (extension).

En outre dans /var/log/messages tu n'as pas d'erreurs avec LBAsect=29081660 ?

grep -i lba /var/log/messages | sort | uniq

Dernière modification par cep (Le 01/09/2006, à 14:16)

Berneri · Le 01/09/2006, à 17:49

cep, je n'ai pas encore fait ce que tu m'as dit... Au boulot, donc relativement peu de temps.
Ceci dit, mon portable a planté pendant que je surfais (ce n'est pas la première fois). Pas d'utilisation possible des magic keys. Donc hard-reboot et là, à nouveau buffer I/O errors, et effacement de certains inodes. La sortie de smartctl -A /dev/hdc donne:

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 062 Pre-fail Always - 0
2 Throughput_Performance 0x0005 100 100 040 Pre-fail Offline - 0
3 Spin_Up_Time 0x0007 175 175 033 Pre-fail Always - 1
4 Start_Stop_Count 0x0012 099 099 000 Old_age Always - 1718
5 Reallocated_Sector_Ct 0x0033 083 083 005 Pre-fail Always - 0
7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0
8 Seek_Time_Performance 0x0005 100 100 040 Pre-fail Offline - 0
9 Power_On_Hours 0x0012 093 093 000 Old_age Always - 3331
10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1399
191 G-Sense_Error_Rate 0x000a 100 100 000 Old_age Always - 65536
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 139
193 Load_Cycle_Count 0x0012 088 088 000 Old_age Always - 122398
194 Temperature_Celsius 0x0002 125 125 000 Old_age Always - 44 (Lifetime Min/Max 13/63)
196 Reallocated_Event_Count 0x0032 082 082 000 Old_age Always - 995
197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 107
198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0

Avec Current_Pending_Sector qui me donne 107 à la place de 106. D'ailleurs j'aimerais savoir si cela signifie qu'il ne peut pas lire 107 secteurs ou si cela signifie qu'il n'a pas pu lire 107 secteurs. Dans le premier cas, c'est pas bon, si ce nombre augmente je vais finir par ne plus pouvoir me servir de mon DD. Ce qui va peut-être me déterminer à changer de DD

cep · Le 01/09/2006, à 18:24

107 en attente de "réallocation".

Et les secteurs ne sont plus les mêmes.

Là il va encore faire du mapping. Tu devrais faire des sauvegardes À ce trains, c'est le fs qui va sauter.

p.s. accessoirement, tu devrais tester ton alimentation. Si je me souviens bien il me semble avoir vu des problèmes à la relance.

Dernière modification par cep (Le 01/09/2006, à 18:33)

Berneri · Le 04/09/2006, à 10:20

107 en attente de "réallocation".
Et les secteurs ne sont plus les mêmes.
Là il va encore faire du mapping. Tu devrais faire des sauvegardes wink À ce trains, c'est le fs qui va sauter

Que préconises-tu formatage low level ou changer de DD ?

cep · Le 04/09/2006, à 10:37

Avec le soft du constructeur ? pourquoi pas. Mais sera sans effet si le problème est aussi mécanique.

L'idéal serait d'essayer un autre disque en situation

En parallèle, sur certains disques ce sont les réglages hdparm qui provoques des "failures can result in massive filesystem corruption" (man hdparm, option -m).

Berneri · Le 04/09/2006, à 12:33

grep -i lba /var/log/messages  | sort | uniq

ne me donne strictement rien (retour au prompt)
Cep, pour l'alimentation, c'est peut-être le cas. J'ai remarqué que le / se mettait souvent en read-only lorsque la batterie se chargeait (excuse, j'ai oublié de préciser que j'étais sur un portable ; asus A4G), du coup, c'est peut-être dû à çà, mais comment en être sûr ? Quand la batterie est chargée, je n'ai pratiquement jamais de problèmes

Dernière modification par Berneri (Le 04/09/2006, à 14:49)

Berneri · Le 05/09/2006, à 16:17

Bon alors j'ai testé le disque dur avec le soft du constructeur (drive fitness test d'Hitachi), il n'a pas sorti de problèmes avec smart ou l'électronique, seulement un problèmes de blocs. Je vais donc tenter de réallouer les secteurs. Pour voir ce qui se passera. Par ailleurs, le nombre de secteurs en attente d'être réalloués augmente avec chaque boot, j'en suis à 112.

En tout cas, cep merci de ton aide.

Dernière modification par Berneri (Le 05/09/2006, à 16:18)

Berneri · Le 06/09/2006, à 19:04

Ben je me suis servis du soft du constructeur pour réallouer les blocs non-lisibles: un smartctl -t long donne :

# 1 Short offline Completed without error 00% 3358 -
# 2 Extended offline Completed without error 00% 3352 -
# 3 Extended offline Interrupted (host reset) 80% 3351 -
# 4 Extended offline Completed: read failure 80% 3347 9380710

J'ai simplement mis les 3 derniers. Les longs foiraient tout le temps ce qui ne semble plus être le cas. Un signe d'amélioration ?

cep · Le 06/09/2006, à 19:11

Il semblerait, surtout si le disque a été utilisé un certain temps depuis.

Les "TRESH" sont à zéro ? probablement non.

Si ça continue, essaye de faire un hdparm -d0 sur le disque pour voir si le dma ne serait pas en partie responsable, après avoir repéré les adresses des problèmes.

Berneri · Le 08/09/2006, à 19:35

Bien, j'ai retesté hier en faisant

sudo smartctl -t long /dev/hdc

et pas de problèmes.
Par contre les TRESH n'ont pas bougé, que ce soit avec ou sans activation des DMA. Ceci dit, / ne se met plus en read-only au milieu de la journée comme avant et les plantages intempestifs de la machine n'apparaissent plus.

À voir avec le temps, je pense

cep · Le 08/09/2006, à 19:48

Merci du retour d'info.

Par curiosité, tu as le détail de ce que fait le soft constructeur "pour réallouer les blocs non-lisibles". C'est du bas niveau ? ou une sorte de dumpefs ?

Cordialement.
cep

Berneri · Le 08/09/2006, à 19:51

ce soft (drive fitness test d'hitachi) réécrit des 0 sur les secteurs défectueux d'après ce que j'ai compris. Donc plutôt genre low-level apparemment.

En tout cas, merci pour ton aide.

Dernière modification par Berneri (Le 08/09/2006, à 19:56)

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#1 Le 30/08/2006, à 13:33

[Résolu par changement de DD] buffer I/O errors récurrentes

#2 Le 30/08/2006, à 14:28

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#3 Le 30/08/2006, à 14:38

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#4 Le 30/08/2006, à 15:23

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#5 Le 31/08/2006, à 13:27

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#6 Le 31/08/2006, à 14:33

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#7 Le 31/08/2006, à 14:38

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#8 Le 31/08/2006, à 15:38

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#9 Le 01/09/2006, à 12:18

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#10 Le 01/09/2006, à 12:49

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#11 Le 01/09/2006, à 13:00

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#12 Le 01/09/2006, à 13:33

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#13 Le 01/09/2006, à 13:42

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#14 Le 01/09/2006, à 14:15

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#15 Le 01/09/2006, à 17:49

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#16 Le 01/09/2006, à 18:24

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#17 Le 04/09/2006, à 10:20

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#18 Le 04/09/2006, à 10:37

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#19 Le 04/09/2006, à 12:33

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#20 Le 05/09/2006, à 16:17

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#21 Le 06/09/2006, à 19:04

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#22 Le 06/09/2006, à 19:11

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#23 Le 08/09/2006, à 19:35

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#24 Le 08/09/2006, à 19:48

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

#25 Le 08/09/2006, à 19:51

Re : [Résolu par changement de DD] buffer I/O errors récurrentes

Pied de page des forums