Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 07/02/2006, à 02:45

sissou

Plantages / reboots intempestifs - Cause = ???

Bonsoir,
Depuis quelques temps je rencontre des problèmes de plantages de ma machine : elle redémarre de façon intempestive assez souvent.
Je cherche donc à découvrir la cause de ces menus tracas :

- plantages obligatoires lorsque quelqu'un se connecte à mon serveur FTP depuis Windows. Le plantage n'est pas immédiat mais après des durées aléatoires après la connexion -> reboot sans sommations

- ce soir j'ai découvert un nouveau type de plantage : je grave un cd de données qui se passe très bien. Content de moi et de la tournure que prennet les événements je suis euphorique et désire en graver un deuxième avec des données différentes : RI (Reboot intempestif) arrivé à 92% de la constitution de l'image). Je réessaie avec les mêmes données : même RI au même endroit dans la procédure. (Graveman pour la gravure)
Seule différence entre les deux disques à graver : les accents dans certains fichiers pour le 2eme disque.

Et mes fichiers partagés sur mon serveur FTP peuvent aussi contenir des accents (une grande partie même).

Est-ce que ces problèmes de RI (redémarrage Inconditionnel pour ceux qui n'ont pas lu le début) peuvent provenir d'un problème à la lecture des fichiers accentués en UTF8 ? Ca me parait un peu gros mais sait-on jamais...

Dans quels logs pourrais-je découvrir la cause de tous mes tourments, le secret de tous les maux de notre planète ? (parce que le visionneur de journaux système sur ma machine il bouffe toute ma RAM, pulse à 100% de CPU, mais n'affiche rien du tout)

Merci ta vous !

Hors ligne

#2 Le 10/02/2006, à 14:51

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

Bonjour

  Bien étrange histoire... smile

  J'ai déjà des problèmes de 'RI' ( wink ) sur mon systême pendant un certain temps durant l'été dernier. Ils arrivaient chaque fois que mon proc tournait un peu trop. J'ai installé les drivers des senseurs de ma carte et mère, et il s'est avéré que je flirtait avec les 70°C.

  J'ai donc ouvert mon pc, pour me rendre compte que le ventilo de mon processeur était rempli d'amas de poussière (et ne faisait donc plus très bien son boulot tongue ). Peut-etre peux-tu d'abord vérifier si tu n'as psa le meme problème?

  Ceci dit, j'ai l'impression que tu as plusieurs problèmes mélangés, mais tu peux déjà voir à ce niveau. Plusieurs de mes amis ayant des laptop ont très régulièrement ce problème.

  Pour les logs, le fichier classique et /var/log/messages (fait cat /var/log/messages | tail -n 100 plutot que l'ouvrir avec un éditeur, parce qu'il est très volumineux, remplace 100 par le nombre de lignes que tu veux voir) et tu trouveras toutes autres sortes de log dans ce repertoire /var/log, selon les applications de monitoring qui seront présentes sur ton systeme.


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#3 Le 10/02/2006, à 15:50

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Bien étrange histoire...

C'est vrai que ça se barre un peu dans tous les sens.... cool

Pour la température du proc, je ne pense pas qu'il s'agisse de cela (je pense seulement car je n'ai pas de capteurs pour obtenir ce genre de données) : mes disques durs sont à #40°C en pleine charge, mon boitier est bien ventilé et le proc aussi, tout est nettoyé régulièrement (moi ! maniaque !!!??) : j'élimine donc cette possibilité.

Et en plus ces RI ne se produisent vraiment qu'une fois les programmes (décrits dans mon post) lancés. Par exemple pour vérifier les logs je vais demander à un ami de se connecter à mon serveur et la machine va forcément freezer pas longtemps après. Pareil pour la gravure.

Merci beaucoup pour les infos sur les logs, ça va m'aider.

Je ne vais malheureusement pas pouvoir tester tout cela immédiatement mais plutôt dans deux semaines (cause vacances cool).

Merci encore.
@+

Hors ligne

#4 Le 10/02/2006, à 15:57

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

Je t'avoue que j'ai du mal à faire le lien entre un serveur ftp et un logiciel de gravure :s

  Tu pourras peut-etre essayer avec cdrecord pour voir si tu as le meme problèmes...  Mais ca doit venir de quelque chose d'asser profond... neutral


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#5 Le 10/02/2006, à 16:00

Bobbybionic

Re : Plantages / reboots intempestifs - Cause = ???

Bonjour
Tu es sûr de ta ram ?


Non à la vente liée. Non au monopole Windows.
Tous ensemble, refusons les logiciels préinstallés et tournons nous vers le libre.

http://bobbybionic.wordpress.com

Hors ligne

#6 Le 10/02/2006, à 16:17

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Oui ma RAM est OK (bon je ne suis pas avec ma machine pour l'instant pour la vérifier mais elle fonctionne très correctement quand je n'utilise pas une des deux applis .... bon je deviens lourd...)

Disons que le lien entre les deux applis rendre plutôt dans le domaine du paranormal.
Peut-être effectivement les plantages n'ont pas les mêmes origines comme j'ai été tenté de le croire (trop rapidement ?) mais ils ont exactement les mêmes effets.
Ce sont les deux seules applis qui posent problème.

Ce qui m'a fait penser que la cause des plantages était la même (et qui m'a enduit d'erreur) est le fait que elles (les applis vsftpd (un démon plutôt) et graveman) portaient toutes les deux sur les mêmes données d'une même partition en ext3 avec les noms de fichiers codés en UTF-8. C'est le seul point commun.

Voilà.

Nan je ne suis pas fou !
Non non ! Mon dieu des renards qui m'attaquent !!

Hors ligne

#7 Le 10/02/2006, à 16:25

Bobbybionic

Re : Plantages / reboots intempestifs - Cause = ???

Petite question : tu entends des voix ?
(tourne 7 fois ton clavier dans ta bouche avant de répondre -je sais c'est chaud- mais la dernière qui a répondu oui on l'a brulée vive)
wink

Non franchement c'est vrai que ça parait louche...
Au niveau du ftp, je sais pas, on te pirate ? tongue
Pour la gravure, tu es comment au niveau de l'espace disque (principalement sur /tmp) ?


Non à la vente liée. Non au monopole Windows.
Tous ensemble, refusons les logiciels préinstallés et tournons nous vers le libre.

http://bobbybionic.wordpress.com

Hors ligne

#8 Le 10/02/2006, à 16:26

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

smile

  Tu auras aussi comme piste de faire un fsck sur cette partition (après l'avoir démontée). Un problème hardware du dd, peut-être? J'en doute cependant, vu que ça se produit toujours dans un contexte bien précis...

  Ca peut bien venir d'une partition endommagée, mais je n'ai jamais entendu parler d'un tel problème qui fasse rebooter la machine... neutral

  Enfin, c'est toujours une piste, un petit

sudo fsck /dev/TA_PARTITION

ne fera pas de mal. Mais j'insiste bien sur le fait que la partition doit etre démontée avant wink


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#9 Le 21/02/2006, à 00:35

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Bon,
De retour pas reposé après mes petites vacances, je continue sur ce sujet quelque peu abscons...

Ayant reproduit plusieurs fois les RI lors de la gravure et ne trouvant rien dans les logs (juste des petits "restart" qui se baladent), j'ai entrepris de copier les données posant problème à graver sur une autre partition pour voir si cela vient bien de la partoche, et la, bingo, un RI.

Seuls 4 répertoires sur 7 sont bien recopiés.  Je fais donc un

sudo fsck /dev/hdb2

mais voici le résultat (partition bien démontée auparavant) :

fsck 1.38 (30-Jun-2005)
e2fsck 1.38 (30-Jun-2005)
/dev/hdb2: propre, 9135/7241728 fichiers, 11703494/14482597 blocs

Donc, je n'y comprends miette.
Voilà ma conclusion.

Je vais donc essayer de recopier sur une autre partition le fichier qui je crois posait problème lors de l'utilisation du FTP (un fichier qui n'a jamais réussi à être téléchargé selon les logs de vsftpd), juste pour voir.

@+

Hors ligne

#10 Le 21/02/2006, à 00:52

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Rebingo,
La recopie du fichier du FTP sur une autre partition d'un autre disque fait lui freezer la machine : rien ne répond plus donc RF (Reboot Forcé).

Je vais aller brûler un cierge. Ma machine a dû être maraboutée.

Je dérive donc de l'applicatif vers le matériel (kikdijon / a raison).
Le DMA est activé pour les deux disques durs. Celui incriminé est un SAMSUNG SV6003H.
Voilà.

Bonne nuit.

Hors ligne

#11 Le 21/02/2006, à 01:52

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

j'ai entrepris de copier les données posant problème à graver sur une autre partition pour voir si cela vient bien de la partoche, et la, bingo, un RI.

La recopie du fichier du FTP sur une autre partition d'un autre disque fait lui freezer la machine

c'est au moment de la copie des fichiers que ca plante, ou c'est en s'en servant ensuite?

le fichier qui je crois posait problème lors de l'utilisation du FTP

c'est un binaire? un fichier texte? on peut le voir? smile

Je dérive donc de l'applicatif vers le matériel (kikdijon / a raison).

Tiens, c'est marrant: perso, je dérive du matériel à l'applicatif ^^ (tant qu'il y a du mouvement, il y a de l'espoir tongue )


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#12 Le 21/02/2006, à 07:55

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Bonjour,

c'est au moment de la copie des fichiers que ca plante, ou c'est en s'en servant ensuite?

-> C'est pendant la recopie
-> Le fichier qui pose pb est un gros fichier video qui aproche les 700 Mo. Sur toute la partoche il ne doit s'agir que de fichiers binaires.

Merci pour ta sollicitude kikdijon wink

Hors ligne

#13 Le 21/02/2006, à 17:04

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

Hum, et les cd données qui plante, c'est en gravant uniquement de gros fichiers, ou ca fait pareil avec une multitude de petits fichiers?

  Si tu as un peu de place, tu pourrais peut-etre essayer de créer un fichier de 1 go et tenter de le copier ailleurs pour voir si ca fait le meme problème...

dd if=/dev/zero of=fichier_test count=2050000

blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#14 Le 21/02/2006, à 22:07

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Alors les fichiers qui font planter sont des fichiers multimedia -> de 2 Mo à 700 Mo (il s'agit d'une partition sur laquelleje stocke tout ce qui est multimedia)

J'ai essayé de copier un fichier à problème vers un DD amovible en usb : plantage.
Par contre un autre fichier de 700 Mo ne pose lui aucun problème.

Bon il faut que je me repenche sur les logs sinon personne ne pourra m'aider.

@+ dans quelques plantages.

Hors ligne

#15 Le 21/02/2006, à 22:52

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Feb 21 21:33:15 NEIGHBORHOOD kernel: [4295764.607000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:15 NEIGHBORHOOD kernel: [4295764.607000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295764.752000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295764.752000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295764.842000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295764.842000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295765.094000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295765.094000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295765.139000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:16 NEIGHBORHOOD kernel: [4295765.139000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:29 NEIGHBORHOOD kernel: [4295778.297000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:29 NEIGHBORHOOD kernel: [4295778.297000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:29 NEIGHBORHOOD kernel: [4295778.448000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:29 NEIGHBORHOOD kernel: [4295778.448000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:33 NEIGHBORHOOD kernel: [4295782.381000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:33 NEIGHBORHOOD kernel: [4295782.381000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:33 NEIGHBORHOOD kernel: [4295782.470000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:33 NEIGHBORHOOD kernel: [4295782.470000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:44 NEIGHBORHOOD kernel: [4295793.516000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:44 NEIGHBORHOOD kernel: [4295793.516000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:45 NEIGHBORHOOD kernel: [4295793.630000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:45 NEIGHBORHOOD kernel: [4295793.630000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:45 NEIGHBORHOOD kernel: [4295793.850000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:45 NEIGHBORHOOD kernel: [4295793.850000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:46 NEIGHBORHOOD kernel: [4295794.970000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:46 NEIGHBORHOOD kernel: [4295794.970000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:46 NEIGHBORHOOD kernel: [4295795.288000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:46 NEIGHBORHOOD kernel: [4295795.288000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:46 NEIGHBORHOOD kernel: [4295795.399000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:46 NEIGHBORHOOD kernel: [4295795.399000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:47 NEIGHBORHOOD kernel: [4295795.806000] atkbd.c: Unknown key pressed (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:47 NEIGHBORHOOD kernel: [4295795.806000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:33:47 NEIGHBORHOOD kernel: [4295795.896000] atkbd.c: Unknown key released (translated set 2, code 0xaa on isa0060/serio0).
Feb 21 21:33:47 NEIGHBORHOOD kernel: [4295795.896000] atkbd.c: Use 'setkeycodes e02a <keycode>' to make it known.
Feb 21 21:37:51 NEIGHBORHOOD syslogd 1.4.1#17ubuntu3: restart.
Feb 21 21:37:51 NEIGHBORHOOD kernel: Inspecting /boot/System.map-2.6.12-10-686
Feb 21 21:37:51 NEIGHBORHOOD kernel: Loaded 28233 symbols from /boot/System.map-2.6.12-10-686.
Feb 21 21:37:51 NEIGHBORHOOD kernel: Symbols match kernel version 2.6.12.

Alors voilà les messages de syslog sachant que le plantage s'est produit à 21h36.
En fait je ne sais pas où trouver les messages de log qui concernent mon problème : même avec sudo cat /var/log/messages | tail -n 2000, mon terminal ne permet pas de remonter jusqu'au problème.. ...mais c'est une autre histoire.

Franchement là, je ne sais plus.
Et la gougueulisation là ne m'est pas d'une grande aide...

Et pis je n'ai pas envie de devoir la reformater sad

Hors ligne

#16 Le 21/02/2006, à 23:09

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Bon alors j'ai du nouveau.
Pour avancer sur la voie tracée par kikdijon, j'ai essayé d'améliorer la commande fsck avec des options, et j'ai pour cela utilisé cette page : http://www.presence-pc.com/forum/ppc/Le … -994-1.htm

Donc, fsck.ext3 -c /dev/hdb2 dans mon cas.

Et devinez qwa ?
Hein ?
Un RI, t'y crois twa ?

Bref, il doit y avoir des inodes défectueux sur la partoche, mais comment réparer ?

Hors ligne

#17 Le 22/02/2006, à 00:28

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

C'est du délire qu'une partition abîmé fasse redémarrer le systême... neutral

  J'ai un outil asser complet pour vérifier l'état des disques durs, ca peut peut-être t'intéresser. Il faut juste que ton disque dur soit 'smart compliant', mais apparemment, tous les dd modernes le sont... (pour info, j'ai deux maxtor de 40go, un 6K040L0 et un 6E040L0, et ca marche très bien).

  Le seul problème, c'est que je ne peux pas te garantir que ça existe en paquet sur ubuntu. Voici les infos que me donne eix, si ca peut t'aider:

* sys-apps/smartmontools
     Available versions:  5.33-r1
     Installed:           5.33-r1
     Homepage:            http://smartmontools.sourceforge.net/
     Description:         control and monitor storage systems using the Self-Monitoring, Analysis and Reporting Technology System (S.M.A.R.T.)

Bon, ce que je crains, c'est que ca ne conduise au même résultat pendant le scan :s

p.s.: un scan peut-etre très long, c'est normal.


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#18 Le 22/02/2006, à 00:51

Noé

Re : Plantages / reboots intempestifs - Cause = ???

Les fsck, essayez depuis un liveCD.


dotdotno ou Phlogistique sur IRC
Jabber : noe.rubinstein CHEZ fritalk.com

Hors ligne

#19 Le 22/02/2006, à 01:18

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Génial ce truc kikdijon,
Je connaissais un peu l'intérêt de SMART mais ne savais pas comment l' utiliser.

J'ai fait un petit sudo smartctl -a /dev/hdb pour commencer et en voici les résultats :

=== START OF INFORMATION SECTION ===
Device Model:     SAMSUNG SV6003H
Serial Number:    0420J1FRA15901
Firmware Version: QQ100-06
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  ATA/ATAPI-6 T13 1410D revision 1
Local Time is:    Tue Feb 21 23:42:21 2006 CET

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (2340) seconds.
Offline data collection
capabilities:                    (0x1b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        No General Purpose Logging support.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  12) minutes.

SMART Attributes Data Structure revision number: 9
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       94
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       956
  5 Reallocated_Sector_Ct   0x0033   253   253   009    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0024   253   253   000    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       287555
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       542
194 Temperature_Celsius     0x0022   160   124   000    Old_age   Always       -       26
197 Current_Pending_Sector  0x0033   253   253   009    Pre-fail  Always       -       0
198 Offline_Uncorrectable   0x0031   253   253   009    Pre-fail  Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000b   100   100   051    Pre-fail  Always       -       0
201 Soft_Read_Error_Rate    0x000b   100   100   051    Pre-fail  Always       -       4

SMART Error Log Version: 1
Warning: ATA error count 243 inconsistent with error log pointer 4

ATA Error Count: 243 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 243 occurred at disk power-on lifetime: 2395 hours (99 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 88 05 01 00 00 b0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  a1 00 05 01 00 00 b0 00      00:17:30.000  IDENTIFY PACKET DEVICE
  c8 00 f8 21 44 eb f0 ff      00:17:27.000  READ DMA
  a1 06 05 01 00 00 b0 ff      00:17:27.000  IDENTIFY PACKET DEVICE
  c8 00 f8 f9 44 eb f0 00      00:16:48.000  READ DMA
  10 00 3f 00 00 00 f0 00      00:16:48.000  RECALIBRATE [OBS-4]

Error 242 occurred at disk power-on lifetime: 2395 hours (99 days + 19 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 88 00 19 ae 2a f0   at LBA = 0x002aae19 = 2797081

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 00 19 ae 2a f0 00      00:17:23.000  READ DMA
  c8 00 00 19 ad 2a f0 00      00:17:23.000  READ DMA
  c8 00 00 19 ac 2a f0 00      00:17:23.000  READ DMA
  c8 00 00 19 ab 2a f0 00      00:17:23.000  READ DMA
  c8 00 00 19 aa 2a f0 00      00:17:23.000  READ DMA

Error 241 occurred at disk power-on lifetime: 2394 hours (99 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  04 80 05 01 00 00 b0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  a1 06 05 01 00 00 b0 00      00:00:00.000  IDENTIFY PACKET DEVICE
  c8 00 f8 f9 44 eb f0 00      00:16:45.000  READ DMA
  c8 00 e8 31 44 eb f0 00      01:31:51.000  READ DMA
  c8 00 f8 21 44 eb f0 00      01:31:46.000  READ DMA
  c8 00 a8 71 44 eb f0 00  49d+14:30:34.296  READ DMA

Error 240 occurred at disk power-on lifetime: 2394 hours (99 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 88 f0 01 45 eb f0   240 sectors at LBA = 0x00eb4501 = 15418625

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 f0 01 45 eb f0 00      00:16:50.000  READ DMA
  c8 00 00 f1 44 eb f0 00      00:16:42.000  READ DMA
  c8 00 00 f1 43 eb f0 00      00:16:42.000  READ DMA
  c8 00 00 f1 42 eb f0 00      00:16:42.000  READ DMA
  c8 00 00 f1 41 eb f0 00      00:16:42.000  READ DMA

Error 239 occurred at disk power-on lifetime: 2394 hours (99 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  01 88 f0 01 45 eb f0

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  b0 d5 01 01 4f c2 f0 00      01:32:32.000  SMART READ LOG
  b0 d1 01 01 4f c2 f0 00      01:32:32.000  SMART READ ATTRIBUTE THRESHOLDS [OBS-4]
  b0 d0 01 00 4f c2 f0 00      01:32:32.000  SMART READ DATA
  b0 da 00 00 4f c2 10 00      01:32:32.000  SMART RETURN STATUS
  b0 da 00 00 4f c2 f0 00      01:32:32.000  SMART RETURN STATUS

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


Device does not support Selective Self Tests/Logging

Je ne sais pas vraiment comment interpréter les résultats.

Pour ceux que ça intéresse, un bon article sur la technologie / protocole SMART : http://lea-linux.org/cached/index/Hardw … smart.html

Donc plus éloquente est cette commande :

sudo smartctl -t short /dev/hdb

qui me renvoie :

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      2396         -

Je lance un test + long pour confirmer cela.
Résultats demain matin.

Me demande bien ce dont il peut s'agir si le disque est dans un état correct. fsck est le seul outil sur le marché pour vérifier l'état des données ?

@Noé : n'avais pas vu ton message. Donc aussi essai demain.

Dernière modification par sissou (Le 22/02/2006, à 01:20)

Hors ligne

#20 Le 22/02/2006, à 04:09

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

Bon, on tiens un morceau, je pense. Ce n'est peux-être pas lié à ton problème, mais tu as beaucoup d'erreurs...

  Le 'short test' te dit que ton disque dur à 2396 heures, et les dernières erreurs qu'indiquent les logs te donnent des erreurs 2395 et 2394 heures. Ce qui me surprend le plus, c'est le nombre d'erreurs: la dernière est l'erreur 240... neutral

  Pour info, mon hdb à 2326 heures et la dernière erreur est:

Error 6 occurred at disk power-on lifetime: 218 hours (9 days + 2 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 3f 08 30 e3  Error: ICRC, ABRT at LBA = 0x0330083f = 53479487

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 03 80 3f 08 30 e3 00      00:05:18.464  READ DMA
  c8 03 80 bf 07 30 e3 00      00:05:18.464  READ DMA
  c8 03 80 3f 07 30 e3 00      00:05:18.464  READ DMA
  c8 03 80 bf 06 30 e3 00      00:05:18.464  READ DMA
  c8 03 80 3f 06 30 e3 00      00:05:18.448  READ DMA

Probablement que je n'avais pas encore activé sa dma... Je crois qu'il serait intéressant de faire quelques recherches sur ce:

IDENTIFY PACKET DEVICE


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#21 Le 22/02/2006, à 08:09

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Voici ce que donne le test + long :

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      2396         -
# 2  Short offline       Completed without error       00%      2396         -

Pour comparer, j'ai fait sudo smartctl -a /dev/hda (l'autre disque) et voici les résultats :

=== START OF INFORMATION SECTION ===
Device Model:     ST340810A
Serial Number:    3FB0H2GB
Firmware Version: 3.34
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   6
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Wed Feb 22 07:03:07 2006 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 420) seconds.
Offline data collection
capabilities:                    (0x1d) SMART execute Offline immediate.
                                        No Auto Offline data collection support.                                        Abort Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        No General Purpose Logging support.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  42) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   053   046   025    Pre-fail  Always       -       87211109
  3 Spin_Up_Time            0x0003   099   098   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   020    Old_age   Always       -       2102
  5 Reallocated_Sector_Ct   0x0033   098   098   036    Pre-fail  Always       -       30
  7 Seek_Error_Rate         0x000f   079   060   030    Pre-fail  Always       -       13214553948
  9 Power_On_Hours          0x0032   081   081   000    Old_age   Always       -       17152
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   096   096   020    Old_age   Always       -       4136
194 Temperature_Celsius     0x0022   036   060   000    Old_age   Always       -       36
195 Hardware_ECC_Recovered  0x001a   100   253   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   161   000    Old_age   Always       -       225
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
ATA Error Count: 489 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 489 occurred at disk power-on lifetime: 15872 hours (661 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 9d 11 0d e1  Error: ICRC, ABRT at LBA = 0x010d119d = 17633693

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 20 9d 11 0d e1 00      00:00:00.287  READ DMA
  ef 42 08 00 00 00 e0 00      00:00:12.281  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.924  SET FEATURES [Set transfer mode]
  ef 42 08 00 00 00 e0 00      00:00:12.719  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.927  SET FEATURES [Set transfer mode]

Error 488 occurred at disk power-on lifetime: 15872 hours (661 days + 8 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 9d 11 0d e1  Error: ICRC, ABRT at LBA = 0x010d119d = 17633693

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 20 9d 11 0d e1 00      00:00:00.287  READ DMA
  ef 42 08 00 00 00 e0 00      00:00:16.469  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.924  SET FEATURES [Set transfer mode]
  ef 42 08 00 00 00 e0 00      00:00:17.294  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:03.118  SET FEATURES [Set transfer mode]

Error 487 occurred at disk power-on lifetime: 15871 hours (661 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 4d fc 0c e1  Error: ICRC, ABRT at LBA = 0x010cfc4d = 17628237

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 4d fc 0c e1 00      00:00:00.941  READ DMA
  ef 42 08 00 00 00 e0 00      00:00:17.328  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.929  SET FEATURES [Set transfer mode]
  ef 42 08 00 00 00 e0 00      00:00:17.013  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.929  SET FEATURES [Set transfer mode]

Error 486 occurred at disk power-on lifetime: 15867 hours (661 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 9d 11 0d e1  Error: ICRC, ABRT at LBA = 0x010d119d = 17633693

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 20 9d 11 0d e1 00      00:00:00.286  READ DMA
  ef 42 08 00 00 00 e0 00      00:00:16.658  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.927  SET FEATURES [Set transfer mode]
  ef 42 08 00 00 00 e0 00      00:00:17.250  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.927  SET FEATURES [Set transfer mode]

Error 485 occurred at disk power-on lifetime: 15858 hours (660 days + 18 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 00 9d 11 0d e1  Error: ICRC, ABRT at LBA = 0x010d119d = 17633693

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 20 9d 11 0d e1 00      00:00:00.287  READ DMA
  ef 42 08 00 00 00 e0 00      00:00:21.837  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.931  SET FEATURES [Set transfer mode]
  ef 42 08 00 00 00 e0 00      00:00:21.996  SET FEATURES [Enable AAM]
  ef 03 08 00 00 00 e0 02      00:00:02.959  SET FEATURES [Set transfer mode]

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      4427         -

Device does not support Selective Self Tests/Logging

Les résultats m'ont l'air pires (+ d'erreurs), et pourtant je n'ai pas de problèmes.

Bon, quoi qu'il arrive, bonne journée et à ce soir

Hors ligne

#22 Le 22/02/2006, à 17:27

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

Another interesting Maxtor bug is that it"s making error log entries
whenever it gets "identify packet device".  According to ATA specs it
shouldn"t do this.

D'après ce que j'ai compris, ton disque est un samsung, mais il a peut-etre le meme problème. Et puis, le contrôle 'health' est réussi...

  Bon, c'est le moment de faire un bilan, pour remmettre tout en place.
  - tu as des reboot, sans que rien n'apparaissent dans les logs
  - ça concerne toujours la même partition, pour des données diverses, mais qui semblent etre relatifs à deux applis en particulier
  - ta partition semble saine, ton disque dur aussi
  - il semble pourtant que ce soit l'accès aux données qui provoque le problème plutot que leur execution, puisque qu'un simple fsck ou cp peut le déclencher...

  Serait un secteur défectueux qui n'est pas repéré par les applications de controle?

  Si tu essaies de manipuler ces données depuis un autre systême, en montant la partition (un livecd si tu n'as pas d'autres linux), as-tu le même problème?

quelques réponse en vrac à des questions que j'avais pas vu passer: (:P)
  - pour remonter plus loin dans les logs de /var/log/messages, tu peux piper un tail et un head, par exemple:

cat /var/log/messages | tail -n 10000 | head -n 500

(remonte 10 000 lignes en arrière et affiche les 500 lignes suivantes)
  - je ne connais pas d'autres application de test de systême de fichier que fsck... neutral


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#23 Le 22/02/2006, à 17:31

kikdijon

Re : Plantages / reboots intempestifs - Cause = ???

a noter aussi que les erreurs semblent toujours arriver à la même adresse: LBA = 0x010d119d (à part dans un cas), mais je serais bien incapable de te dire quoi faire de cette information neutral


blog : http://blog.olivier-elmekki.com
site professionnel : http://olivier-elmekki.com

Hors ligne

#24 Le 23/02/2006, à 01:31

sissou

Re : Plantages / reboots intempestifs - Cause = ???

Alors,
J'ai refait des tests avec fsck (avec les options c et f, c'est très long...) et ça n'a trouvé aucune erreur. Rien de ce côté. Le système de fichier ne doit donc pas être en cause. Théoriquement.

Les mêmes opérations depuis une knoppix (c'est une bonne idée ça, je n'y avais pas pensé) ne font pas planter : m'est annoncé que la copie des fichiers est impossible. Pourtant ces fichiers sont lisibles sans problème.

neutral

Suis un peu perplexe là.
S'agirait-il de fichiers endommagés tout simplement ? Mais pourquoi faire planter alors ?

Je vais essayer de trouver comment récupérer ces fichiers pour pouvoir les effacer parce que je vois pas comment faire évoluer les choses.

Merci énormément pour votre aide en tout cas.
J'aurai appris beaucoup avec ce schmimblick : smartmontools

Hors ligne