[Debian] Machine check exception

Pagina: 1
Acties:

  • KRASH
  • Registratie: December 2002
  • Laatst online: 03-02 16:30

KRASH

Juist ja...

Topicstarter
Allereerst, ja ik heb op google gezocht, er staat ook genoeg over dit probleem, maar er staan nergens concrete oplossingen of oorzaken, deze verwacht ik hier ook niet, maar een duwtje in de goede richting zou me al heel erg helpen ;)

Probleem: Af en toe (zo'n beetje 1-2 keer per week) loopt onze database server gewoonweg vast met de melding machine check exception tijden het uitvoeren van de database backups (gewone mysqldump). Het systeem is dan op geen enkele manier meer bereikbaar en moet dus gereboot worden via de APC, maar om een database server zo vaak een harde reboot te geven is gewoon niet goed voor de hardware.

Een paar screenshots van het systeem vastgelopen:
http://www.riekelt.com/upload/snapshot.png
http://www.riekelt.com/upload/snapshot1.png
http://www.riekelt.com/upload/snapshot2.png

Het gaat hier om een Debian dual dualcore opteron machine met 8Gb DDR REG ECC geheugen.

Iemand enig idee waar het aan zou kunnen liggen?

  • Aike
  • Registratie: Juli 2000
  • Niet online
Misschien trap ik een open deur in voor je, maar dit lijkt me geen NOS probleem maar een hardwareprobleem. Heb je al eens memtest gedraaid? En pakt je server het geheugen wel goed? Zijn er koelingsproblemen? Je cpu kan koel zijn maar je geheugen kan te warm worden. Bios update? Etc etc

Mijn blog over het deployen van Ruby on Rails: RunRails.com


  • moto-moi
  • Registratie: Juli 2001
  • Laatst online: 09-06-2011

moto-moi

Ja, ik haat jou ook :w

mcelog al gedraait? :) Waarschijnlijk is er een dimm hardwarematig stuk, hebben wij laatst ook gehad :)

God, root, what is difference? | Talga Vassternich | IBM zuigt


  • cherwin
  • Registratie: Maart 2006
  • Niet online
Anders kijk je hier even wat mce nu ongeveer inhoud.
moto-moi schreef op woensdag 18 oktober 2006 @ 09:13:
mcelog al gedraait? :) Waarschijnlijk is er een dimm hardwarematig stuk, hebben wij laatst ook gehad :)
Dat is zeer waarschijnlijk het probleem, dit staat er momenteel:

code:
1
CPU 0: Machine Check Exception:    4 Bank 4: f621200200000813

Dit duidt aan dat er iets mis is met de 4e geheugen module, even memtest draaien dus.
Wat je ook kunt doen is, voordat jij jouw kernel boot "nomce" als boot parameter toevoegd in jouw bootloader (zal vast GRUB zijn in jou geval).

[ Voor 11% gewijzigd door cherwin op 18-10-2006 09:55 ]

Tell me your problem, not the solution you think I should build for you.


  • KRASH
  • Registratie: December 2002
  • Laatst online: 03-02 16:30

KRASH

Juist ja...

Topicstarter
moto-moi schreef op woensdag 18 oktober 2006 @ 09:13:
mcelog al gedraait? :) Waarschijnlijk is er een dimm hardwarematig stuk, hebben wij laatst ook gehad :)
Dat werkt dus niet, mcelog geeft ook een fout (device not found /dev/mcelog).
Dit duidt aan dat er iets mis is met de 4e geheugen module, even memtest draaien dus.
Wat je ook kunt doen is, voordat jij jouw kernel boot "nomce" als boot parameter toevoegd in jouw bootloader (zal vast GRUB zijn in jou geval).
Wat doet dat nomce precies? Draait hij dan gewoon door of reboot hij dan?

  • cherwin
  • Registratie: Maart 2006
  • Niet online
De processor voert zelfdiagnoses uit en rapporteert dat aan de kernel, als de kernel een fataal bericht binnen krijgt dan wordt er een kernel panic weergegeven met de bijbehorende foutcode. Wanneer je nomce toevoegd op de bootprompt dan wordt er niet naar gekeken.

Dus om antwoord op jouw vraag te geven, waarschijnlijk boot jouw computer gewoon door. Maar i.p.v. te vragen kon je gewoon opzoeken wat het nu precies inhoud en ook meteen uitvoeren op de bootprompt.

[ Voor 3% gewijzigd door cherwin op 18-10-2006 14:03 ]

Tell me your problem, not the solution you think I should build for you.


  • Boudewijn
  • Registratie: Februari 2004
  • Niet online

Boudewijn

omdat het kan

memtesten!

ik durf er bijna vergif op in te nemen dat je ram dood is (of een mem controller natuurlijk)

Zaram module kopen voor je glasvezelaansluiting?


  • _JGC_
  • Registratie: Juli 2000
  • Laatst online: 19:10
Die 4GB geheugen die je er laatst bijgezet hebt, zijn dat dezelfde modules als wat er al in zat? Verschillende snelheden misschien, etc?
Iets staat me bij dat er ook wel segfaults van mysql geweest zijn op die machine, dus lijkt me vreemd dat dat geheugen niet de oorzaak zal zijn.

  • KRASH
  • Registratie: December 2002
  • Laatst online: 03-02 16:30

KRASH

Juist ja...

Topicstarter
_JGC_ schreef op donderdag 19 oktober 2006 @ 00:30:
Die 4GB geheugen die je er laatst bijgezet hebt, zijn dat dezelfde modules als wat er al in zat? Verschillende snelheden misschien, etc?
Iets staat me bij dat er ook wel segfaults van mysql geweest zijn op die machine, dus lijkt me vreemd dat dat geheugen niet de oorzaak zal zijn.
Jep, zijn dezelfde modules....

Memtest ben ik nog niet aan toe gekomen, zal ik vannacht eens proberen.
Pagina: 1