Contenu | Rechercher | Menus

Annonce

Si vous avez des soucis pour rester connecté, déconnectez-vous puis reconnectez-vous depuis ce lien en cochant la case
Me connecter automatiquement lors de mes prochaines visites.

À propos de l'équipe du forum.

#1 Le 13/03/2010, à 23:00

costello22

[Resolu] Problème sérieux : Ubuntu ou matériel ?

Bonsoir à tous

Sur ma config récente (décembre 2009), je rencontre un problème récurrent que je ne sais pour l'instant devoir attribuer à Ubuntu ou à un problème hardware.

Pour faire simple, en deux mois, j'ai été vicitime de 2 plantages assez sérieux qui se caractérisent par les problèmes suivants :
- Freeze du systeme avec perte de fichiers (effacement pur et simple, j'ai pu le vérifier car Rhythmbox m'indique les fichiers manquants)
- Impossible de redémarrer le système après le plantage
- Message d'erreur lors du boot "overclocking failed"

La parade que j'ai trouvée consiste à redémarrer sur le live CD, lancer Gparted, faire un check sur la partition home qui répare les erreurs trouvées et relancer ensuite le système.

Mais je n'ai toujours pas trouvé l'origine du problème et le fait qu'il soit arrivé deux fois en deux mois me fait craindre qu'll se produise à nouveau.

Quelqu'un a t'il rencontré les mêmes erreurs ou a t'il un avis sur ces plantages ?
Merci d'avance
Alex


Ma config : Ubuntu 9.10 64
AMD AthlonTM II X2 250
Asus M4A79XTD EVO
Corsair Power CX
G.Skill Kit Extreme3 2 x 2 Go PC12800 Ripjaws
Point Of View GeForce 9500 GT 512 Mo HDMI
Samsung Spinpoint F3 S-ATA - 1000 Go - 32 Mo

Dernière modification par costello22 (Le 15/03/2010, à 23:03)

Hors ligne

#2 Le 13/03/2010, à 23:11

R2_D2

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

tu dis que tu as un message "overclocking failed" ?
sur les asus, dans le bios, tu as un mode qui te permet de faire de l'overclocking facilement en définissant juste des % . Ex: j'overclock à 5%, 10% ect..
il faudrait voir de ce coté là et éventuellement le désactiver si il est actif...

Hors ligne

#3 Le 13/03/2010, à 23:19

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Merci de ta réponse,
Je suis allé voir dans le bios.. La fonction overclocking était réglée sur manuel.. je l'ai mise sur auto.
Ce que je m'explique pas bien c'est comment un défaut de la fonction overclocking conduirait à des erreurs et des suppressions de fichiers sur le disque dur ?
Alex

Hors ligne

#4 Le 13/03/2010, à 23:28

Hermes le Messager

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

costello22 a écrit :

Merci de ta réponse,
Je suis allé voir dans le bios.. La fonction overclocking était réglée sur manuel.. je l'ai mise sur auto.
Ce que je m'explique pas bien c'est comment un défaut de la fonction overclocking conduirait à des erreurs et des suppressions de fichiers sur le disque dur ?
Alex

Un plantage du microprocesseur pour surchauffe et/ou overclocking ne va pas détruire tes fichiers.

Si certains fichiers disparaissent, c'est que ton disque dur est en train de mourir. Tu devrais utiliser l'outil constructeur de ton disque dur et le vérifier (secteurs défectueux).

Si tu as des documents importants, je te recommande de TRÈS rapidement les sauvegarder sur un autre disque dur.

Hors ligne

#5 Le 13/03/2010, à 23:30

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

J'utilise régulièrement Grsync pour faire une sauvegarde du dossier home...
Donc si je te suis bien, le problème pourrait venir du disque dur... (?)
Merci
Alex

Hors ligne

#6 Le 14/03/2010, à 09:15

21ch181

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Tu peux aussi essayer de lire les informations SMART de ton disque en installant le paquet smartmontools.
Une fois installé, dans un terminal, tu saisis :

sudo smartctl -a /dev/sdx     où x est l'identifiant du disque à tester (a, b, c ...)

Tu auras déjà une idée de l'état de ton disque et des erreurs d'écriture qu'il a rencontré te permettant ainsi de pressentir (car il n'y a pas de certitude) s'il va lacher dans peu de temps

Hors ligne

#7 Le 14/03/2010, à 12:48

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Voici le résultat du test avec smartmontools

smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     SAMSUNG HD103SJ
Serial Number:    S246J1MSA01740
Firmware Version: 1AJ100E4
User Capacity:    1 000 204 886 016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  Not recognized. Minor revision code: 0x28
Local Time is:    Sun Mar 14 11:46:31 2010 CET

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:          (9360) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 156) minutes.
SCT capabilities:            (0x003f)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   051    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0026   252   252   000    Old_age   Always       -       0
  3 Spin_Up_Time            0x0023   073   072   025    Pre-fail  Always       -       8376
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       93
  5 Reallocated_Sector_Ct   0x0033   252   252   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   252   252   051    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0024   252   252   015    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       1023
10 Spin_Retry_Count        0x0032   252   252   051    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   252   252   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       111
191 G-Sense_Error_Rate      0x0022   100   100   000    Old_age   Always       -       1
192 Power-Off_Retract_Count 0x0022   252   252   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0002   064   064   000    Old_age   Always       -       31 (Lifetime Min/Max 16/36)
195 Hardware_ECC_Recovered  0x003a   100   100   000    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   252   252   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   252   252   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x002a   100   100   000    Old_age   Always       -       3
223 Load_Retry_Count        0x0032   252   252   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       111

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


SMART Selective Self-Test Log Data Structure Revision Number (0) should be 1
SMART Selective self-test log data structure revision number 0
Warning: ATA Specification requires selective self-test log data structure revision number = 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Completed [00% left] (0-65535)
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je sais pas trop quoi en penser...
Merci
Alex

Hors ligne

#8 Le 14/03/2010, à 13:11

kyncani

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Apparemment ton disque fonctionne très bien.
Dégage l'overclocking et si tu utilises des drivers propriétaires, retire-les.

Hors ligne

#9 Le 14/03/2010, à 13:41

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Merci pour cette info sur le disque...
Pour l'overclocking, comme je l'ai dit plus haut, j'ai positionné sur Auto dans le Bios alors qu'il était sur Manuel à l'origine...
D'ailleurs, depuis cette manip, le message a de nouveau disparu et l'applet de ma barre des taches qui controle l'utilisation du processeur m'indique des pourcentages bien moins élevées qu'auparavant....

Pour les drivers propriétaires, les seuls que j'utilise sont les pilotes Nvidia pour ma carte graphique.. Tu penses que le problème pourrait venir de là ?

Merci
Alex

Hors ligne

#10 Le 14/03/2010, à 13:57

kyncani

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Historiquement, les drivers propriétaires sont responsables d'un pourcentage importants de plantages du noyau linux je crois.

Dernière modification par kyncani (Le 14/03/2010, à 13:59)

Hors ligne

#11 Le 14/03/2010, à 21:04

21ch181

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Bon j'ai été occupé et je n'ai pas pu suivre le fil rapidement mais kyncani avait continué son aide !

Déjà tu as la confirmation que ton DD n'est pas malade ... ce qui est déjà un bon point !!
Si tu souhaites comprendre les retours de smartctl, tu peux regarder ceci : http://en.wikipedia.org/wiki/S.M.A.R.T.
Les items critiques : 1, 5, 10, 196, 198 sont à 0 d'où le verdict de kyncani.

Voili voilou bonnes recherches pour régler le pb d'overclocking maintenant .... mais là je n'y connais strictement rien

Bonne soirée

Hors ligne

#12 Le 15/03/2010, à 07:43

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Je vais continuer à chercher du coté de l'overclocking..
Merci de votre aide.. Je vais également regarder du coté du refroidissement, j'ai installé l'Applet qui donne les relevés de température. Voilà ce qu'elle me donne pour le moment
http://www.flickr.com/photos/31979927@N … 3/sizes/l/
Alex

Dernière modification par costello22 (Le 15/03/2010, à 07:55)

Hors ligne

#13 Le 15/03/2010, à 08:18

Brunod

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Salut,
La perte de fichier se fait en lecture ou lors de manipulation de ceux-ci ?
Si c'est en cours de manip (copie, édition...) et qu'un plantage intervient à un moment inopportun, je peux comprendre qu'il y ait altération ou perte; si c'est lors de simples lectures, je ne vois pas comment.
Maintenant, un truc qui vaut aussi la peine, c'est un test en profondeur (2 jours par ex.) de la ram avec par ex. le livecd Ubuntu., test ram au boot.


Windows est un système d'exploitation de l'homme par l'ordinateur. Linux, c'est le contraire...
39 pc linux convertis

Hors ligne

#14 Le 15/03/2010, à 13:53

Hoper

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Un plantage du microprocesseur pour surchauffe et/ou overclocking ne va pas détruire tes fichiers.

Justement si. Si le cpu se met à faire n'importe quoi, alors ton pc va très bien pouvoir se mettre à écrire n'importe quoi sur le disque. (et donc "écraser des fichier"). Le fait que le PC "freeze" est assez souvent la conséquence d'un problème hardware sur le materiel de base (cpu / carte mere / ram).

Cela dit, ton disque dur ne peut pas encore être totalement mis hors de cause (même si c'est peu probable). En effet, tu as affiché les statistiques smart actuelles mais tu n'a fait aucun tests :

No self-tests have been logged.  [To run self-tests, use: smartctl -t]

Pour lancer un test sur le disque, tape :

sudo smartctl --test=short /dev/sdX

Attend 2 minutes, puis relance :

sudo smartctl --all /dev/sdX

L'étape suivante va être de tester la ram pendant au moins une nuit, en bootant sur le live CD et en lancant un memtest.


Mes tutos et coups de gueule :
http://hoper.dnsalias.net/atdc/
Mastodon: @hoper@framapiaf.org

Hors ligne

#15 Le 15/03/2010, à 21:25

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Merci à tous
Alors voilà d'abord le résultat du test sur le disque dur

=== START OF INFORMATION SECTION ===
Device Model:     SAMSUNG HD103SJ
Serial Number:    S246J1MSA01740
Firmware Version: 1AJ100E4
User Capacity:    1 000 204 886 016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  Not recognized. Minor revision code: 0x28
Local Time is:    Mon Mar 15 20:17:03 2010 CET

==> WARNING: May need -F samsung or -F samsung2 enabled; see manual for details.

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)    Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)    The previous self-test routine completed
                    without error or no self-test has ever
                    been run.
Total time to complete Offline
data collection:          (9360) seconds.
Offline data collection
capabilities:              (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003)    Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01)    Error logging supported.
                    General Purpose Logging supported.
Short self-test routine
recommended polling time:      (   2) minutes.
Extended self-test routine
recommended polling time:      ( 156) minutes.
SCT capabilities:            (0x003f)    SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   051    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0026   252   252   000    Old_age   Always       -       0
  3 Spin_Up_Time            0x0023   073   072   025    Pre-fail  Always       -       8353
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       94
  5 Reallocated_Sector_Ct   0x0033   252   252   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   252   252   051    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0024   252   252   015    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       1047
10 Spin_Retry_Count        0x0032   252   252   051    Old_age   Always       -       0
11 Calibration_Retry_Count 0x0032   252   252   000    Old_age   Always       -       0
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       112
191 G-Sense_Error_Rate      0x0022   100   100   000    Old_age   Always       -       1
192 Power-Off_Retract_Count 0x0022   252   252   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0002   064   064   000    Old_age   Always       -       33 (Lifetime Min/Max 16/36)
195 Hardware_ECC_Recovered  0x003a   100   100   000    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   252   252   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   252   252   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x002a   100   100   000    Old_age   Always       -       3
223 Load_Retry_Count        0x0032   252   252   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       112

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      1047         -

SMART Selective Self-Test Log Data Structure Revision Number (0) should be 1
SMART Selective self-test log data structure revision number 0
Warning: ATA Specification requires selective self-test log data structure revision number = 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Completed [00% left] (0-65535)
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Je vais également tester la Ram sur le livecd

Sinon, les erreurs se produisent effectivement après le freeze de la machine... Le PC refuse de redémarrer et me met le message 'Overclocking failed'. J'ai donc rebooté sur le livecd, lancé Gparted et fait un check sur la partition home avec correction des erreurs... Cette manip effectuée, le PC redémarre normalement. En lancant Rhythmbox, je me suis apercu qu'il m'indiquait une dizaine de fichiers manquants.. Vérification faite, ces fichiers n'existaient plus dans leur répertoire d'origine... Comme je l'ai dit plus haut, je suis rentré dans le bios et j'ai mis l'overclocking sur auto et non plus sur manuel.. Depuis deux jours, tout semble revenu à la normale...

La première fois que le problème m'était arrivé (15 février), j'avais purement et simplement réinstallé le système mais sans toucher au bios.... Depuis tout semblait marcher et le même probème m'est à nouveau arrivé samedi...
Je reste donc très prudent et souhaiterais arriver à des certitudes sur l'origine du problème...

Hors ligne

#16 Le 15/03/2010, à 21:29

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Pour être totalement complet, mes recherches sur le message d'erreur que je reçois après le redémarrage de la machine me laissent à penser qu'il s'agit bien d'un problème hardware et non lié à Ubuntu... On trouve en effet plusieurs posts traitant du même sujet sur des PC windows....

overclocking failed please enter setup to re-configure your system

Je soupconne effectivement un problème lié à la Ram ou à la carte Mère Asus et à sa configuration...

Alex

Hors ligne

#17 Le 15/03/2010, à 22:29

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Dernière info trouvée sur la doc ubuntu.fr dans la page http://doc.ubuntu-fr.org/diagnostic_gel_interface
ce petit paragraphe qui me dit que je dois pas être loin de la solution....
Ram :

    *
      Votre ram a peut être du plomb dans l'aile. ou sa tension est trop basse (attention à pas la faire cramer non plus).

Un petit test avec memtest86 est peut être nécessaire. L'utilitaire est disponible au démarrage sur le liveCD.

Pour les pocesseurs de carte ASUS (notamment P5Q3), il peut exister un problème de reconnaissance et de gestion automatique de la RAM qui cause des freezes à répétition (même avec un bios à jour et malgré les releases notes qui annoncent ce problème comme réglé -à ce jour février 2010-); Pour le résoudre, dans le bios il faut aller à l'onglet "Ai Tweaker menu" et régler le DRAM frequency et le DRAM voltage avec les spécifications du constructeur de votre RAM (par exemple pour une DDR3: [1.8 V] [1333 Mhz] ) Voir: http://vip.asus.com/forum/view.aspx?id=20090602005541096&board_id=1&model=P5Q3&page=1&SLanguage=en-us

La mémoire sur ma config ce sont deux barretttes Gskill http://www.materiel.net/ctl/PC_de_burea … pjaws.html

Hors ligne

#18 Le 15/03/2010, à 23:02

costello22

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

Bon ca y est, je crois que j'ai trouvé sur le site ASUS la solution à mes problèmes.. Il semble y avoir une incompatibilité entre ma carte mère et les mémoires DDR3 G.Skill que j'ai installé....

Lire ci-dessous :
Like many others who have built a system using an Asus M4A79XTD EVO motherboard with G.Skill F3-12800CL9D-4GBRL memory, I've been having horrible system instability problems.  I've been getting occasional BSODs and freezes in Windows, but the most frustrating problem has definitely been the "cold boot" issue that others have been experiencing.  This is the problem where the system encounters various BSODs or endless rebooting loops when you try to boot a system that has been off for a period of, say, 8-10 hours or more.  I've been working to resolve this issue for over a month now, and it has been a real nightmare.  I have probably run close to two dozen different diagnostic tests of every flavor, and have done about a half dozen OS reinstalls trying to get at a solution.  It was only by looking online that I was able to identify the culprit, by finding many others who were having the same problems with certain Asus mobo + G.Skill memory configs.

The cold boot issue seems to be a very tricky one to resolve.  I have encountered the problem even when using the exact BIOS settings that G.Skill suggests for this memory.  I have been in touch with G.Skill support by email and have read their suggestions on this forum and what I have gotten is either reaffirmation on the specified settings for this RAM, or vague offerings on a few other things to try like underclocking the RAM or even messing around with other mobo voltages and frequencies that aren't directly related to RAM settings (not a good sign).  I don't think G.Skill has presented a clear answer on this.  I have visited just about every other reputable tech forum out there and you'll generally find people out there having our issue, with no consensus on how to resolve it, anywhere.

I want to share what I've learned through all the time and effort I've put into this.  Most seem to be approaching this as a problem with RAM timings, which I don't think is the case.  Okay, it may be for those using blatantly wrong settings, but I can say that those of us using the spec timings or even looser timings are still having trouble.  What I believe to be true is that changing the RAM settings in the BIOS to just about any workable config will correct the cold boot issue, but only in the short term.  For example, I was using the "proper" settings for this RAM (9-9-9-24 2T 1600 1.5V) for a while and things seemed just fine, then inevitably the cold boot issue came knocking at my door after a few days.  I then tried a different config G.Skill mentioned somewhere (8-8-8-24 2T 1333 1.5V) and lo and behold, stability returned...for a while.  Once the badness returned, I was able to restore stability once again by simply switching things back to the way they were before.  I think part of why this issue is so frustrating for people is that you can't see whether it's been corrected without having to wait for a while (i.e., leave the system powered down for a while).  Also, many think they have the problem corrected by some BIOS adjustment, only to have it return again later.  So just to reiterate, I believe that this problem is arising due to some phenomena related to the system being powered down for some time, though I don't have the technical background to know what that might be.  I think the memory timing is more of a red herring in this scenario, since the issue crops up with a wide variety of RAM settings, including the "correct" one.  For now, what I am doing when cold boot problems turn up is to switch between the two timings I mentioned above.  In this way I have been able (so far) to make the cold boot issue go away as soon as it arises.

I would point out that what I suggest trying here is merely a workaround, and not a solution.  If you do what I've done and restore your stability, you're probably just kicking the can down the road and will see problems arise again soon.  Even if you do what I've done you will get inconsistent system performance due to regularly changing your timings in the BIOS (which is something you should almost never have to do anyway).  Plus, it makes me very uncomfortable that I still need to experience the cold boot issue to prompt me to implement this workaround.  Having your system crash in the middle of a boot is not good and can easily translate into corrupted data.  Still, if others are having similar problems I'd like to hear whether you have any luck with this same workaround.

Here are a few other things others with this issue may want to try to help pinpoint the problem.  I will try them myself as I continue to encounter problems and will post what I learn in this thread.

1) Run MemTest86+ for an extended period of time for both the case of A) system seems to be running fine, and B) system is having cold boot issues.  The BIOS settings should be identical for both tests.  Do you get the same result in both cases, or does one result in significantly different numbers of errors reported?
2) Once the cold boot issue crops up for you, make a small trivial change in your RAM timings and see if that temporarily fixes it (e.g., change from 9-9-9-24 to 9-9-9-27).  If this resolves the issue, then I think we can confidently say that this is not a RAM timing issue at all but something else.

G.Skill claims compatibility between this RAM and mobo on their website, so I feel they have a responsibility to consumers who trusted this information.  Here's what I would like G. Skill to do to address this problem:

1. Provide some sort of explanation of the "cold boot" problem.  Please help us understand why these problems are popping up.  This seems to be an issue unrelated to RAM timing and more central to whatever it is that changes if the system is left off for a while.  Or, if you think I'm wrong, please explain why.
2. Let us know the full, exact BIOS settings that should be used with this hardware configuration (not just RAM settings, but any other settings that should be noted).  Heck, even give us a few stable setting configurations for us to try out.  You claim compatibility with this motherboard on your website, so obviously you have determined a working configuration.  Make this info a sticky on the 'DDR3 BIOS Configuration Guides' page, as it is badly needed there.
3. If you can't give us the information that will make this hardware "play nice" together, offer to exchange our memory with a different type that offers the same level of performance while delivering system stability.  If that's not possible, offer to accept our returned memory sticks for a refund.

I think G.Skill makes good memory, but that maybe in this case they gave this config their stamp of approval without enough testing.  If they want to keep me as a customer they need to be proactive about backing up their product claims.  I'm willing to try to work with this RAM for a little longer, but my patience grows thin when I read on other forums about people correcting this problem instantly simply by trying different memory.

Au moins, Ubuntu n'y est pour rien ! Merci à tous ceux qui m'ont apporté leur aide. Alex

Hors ligne

#19 Le 16/03/2010, à 00:24

Hoper

Re : [Resolu] Problème sérieux : Ubuntu ou matériel ?

De rien... Content de voir que j'avais pas fait fausse route en t'indiquant la ram smile


Mes tutos et coups de gueule :
http://hoper.dnsalias.net/atdc/
Mastodon: @hoper@framapiaf.org

Hors ligne