OpenSUSE 11.4/12.1 'Hardware error'

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • julby
  • Registratie: Augustus 2010
  • Laatst online: 15-04 15:33
Mijn desktop (met AMD Phenom II X2 550 BE) met OpenSUSE 11.4 geeft sinds gisterenavond, uit het niets, zonder dat hij in gebruik was, zonder updates, zonder hardwarematige aanpassingen, ineens foutmeldingen als:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Message from syslogd@BartSUSE121 at Jan 4 21:56:23 ...
kernel:[ 300.701060] [Hardware Error]: Data Cache Error: during L1 linefill from L2.

Message from syslogd@BartSUSE121 at Jan 4 21:56:23 ...
kernel:[ 300.701068] [Hardware Error]: cache level: L2, tx: DATA, mem-tx: DRD

Message from syslogd@BartSUSE121 at Jan 4 21:56:23 ...
kernel:[ 300.701079] [Hardware Error]: MC1_STATUS[Over|CE|-|-|-]: 0xd000000000000171

Message from syslogd@BartSUSE121 at Jan 4 21:56:23 ...
kernel:[ 300.701085] [Hardware Error]: Instruction Cache Error: Copyback Parity/Victim error.

Message from syslogd@BartSUSE121 at Jan 4 21:56:23 ...
kernel:[ 300.701091] [Hardware Error]: cache level: L1, tx: INSN, mem-tx: EV

De meldingen komen soms eens per minuut, soms aan de lopende band. Systeem draait verder prima, zonder problemen/crashes. Voor de zekerheid (moest toch nog een keer gebeuren) een schone install van OpenSUSE 12.1 gedaan -> zelfde problemen (foutmeldingen hierboven komen van 12.1). Ook Windows7 (dual boot) draait prima, computer komt zonder problemen door een half uurtje prime95, geen foutmeldingen te vinden in de logs.

Een kleine zoektocht op internet deed vermoeden dat de oorzaak kon liggen in:
  1. Geheugen -> Memtest86 heeft vanochtend een paar uur gedraaid, zonder problemen.
  2. Oververhitte processor (L1/L2 cache fouten) -> PC is vanavond open geweest, was bijzonder schoon. CPU-temp ~25 graden idle, ~30 gestressed.
Iemand:
  1. Enig idee wat de oorzaak kan zijn?
  2. Enig idee hoe ik de oorzaak verder kan achterhalen?
  3. Enig idee hoe dit mogelijk te verhelpen is?
Bijzonder jammer dat de computer/SUSE verder prima loopt maar verder onbruikbaar is door de constante stroom van foutmeldingen ;(

Acties:
  • 0 Henk 'm!

  • Krukar
  • Registratie: September 2001
  • Laatst online: 29-09 11:50
De error meldingen die je hier post lijken erg sterk op ECC-foutmeldingen uit je CPU cache.
Weet je heel zeker dat je niet in de BIOS of zelfs softwarematig per ongeluk iets hebt veranderd?

Die Phenom X2 heeft volgens mij standaard een aantal cores gedisabled, het zou kunnen dat die nu ge-enabled zijn en dat 1 van die cores foutief is?
Sommige moederborden hebben bepaalde core-unlock functies zoals het ingedrukt houden van alt+f2 bij het booten. Ik zou als ik jou was je BIOs eens echt goed nalopen.


In je RAM zou ik het niet zoeken want deze errors duiden puur en alleen naar de L2 cache van je CPU.

Acties:
  • 0 Henk 'm!

  • Krukar
  • Registratie: September 2001
  • Laatst online: 29-09 11:50
Als bovenstaande niet helpt kun je trouwens nog eens testen of het niet een vage kernel bug is (die zijn er wel eerder geweest met bepaalde AMD cpu's).

Als je OpenSUSE boot bij het eerste bootlevel (eerste groene scherm) even op F5 drukken en dan voor systemv kiezen, standaard booten nieuwere distro's met systemd wat meer functionaliteit bied maar ook voor meer hardware problemen kan zorgen, systemd doet o.a. wat dingen anders met je CPU interactie wat zou kunnen zorgen voor deze errors.

Het is een long shot maar denk ik wel waard om eens te proberen.

Acties:
  • 0 Henk 'm!

  • julby
  • Registratie: Augustus 2010
  • Laatst online: 15-04 15:33
De error meldingen die je hier post lijken erg sterk op ECC-foutmeldingen uit je CPU cache.
Weet je heel zeker dat je niet in de BIOS of zelfs softwarematig per ongeluk iets hebt veranderd?
Het begint toch inderdaad steeds meer op een softwarematig probleem te lijken; onder Windows7 en Ubuntu draait het systeem prima en ook OpenSUSE draait zonder problemen, afgezien van de stroom aan foutmeldingen.
Die Phenom X2 heeft volgens mij standaard een aantal cores gedisabled, het zou kunnen dat die nu ge-enabled zijn en dat 1 van die cores foutief is? Sommige moederborden hebben bepaalde core-unlock functies zoals het ingedrukt houden van alt+f2 bij het booten. Ik zou als ik jou was je BIOs eens echt goed nalopen.
Dat klopt, ik heb de CPU in het verleden ook wel unlocked en ook op 4 cores draait hij prima, maar standaard staat hij op 2 cores, licht overclocked. Ik had de BIOS al teruggezet naar fabrieksinstellingen, maar geen succes.
Als bovenstaande niet helpt kun je trouwens nog eens testen of het niet een vage kernel bug is (die zijn er wel eerder geweest met bepaalde AMD cpu's).
Als je OpenSUSE boot bij het eerste bootlevel (eerste groene scherm) even op F5 drukken en dan voor systemv kiezen, standaard booten nieuwere distro's met systemd wat meer functionaliteit bied maar ook voor meer hardware problemen kan zorgen, systemd doet o.a. wat dingen anders met je CPU interactie wat zou kunnen zorgen voor deze errors.
Ik heb inmiddels ook hulp ingeroepen via het OpenSUSE forum (zonder succes), maar daar werd deze mogelijkheid al uitgesloten; OSuse 11.4 gebruikt standaard systemv, OSuse 12.1 systemd. Onder beiden installaties heb ik de problemen.