GA-7A8DW crasht met 0x0000009c

Pagina: 1
Acties:

  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Dit is een probleem wat zich al een hele tijd voordoet. Het is een lange lijst pogingen en symptomen geworden, dus ik probeer ze een beetje overzichtelijk neer te zetten.

Specs:
Gigabyte GA-7A8DW
2x AMD Opteron 244
2x 512MB Kingston ECC/REG KVR400D8R3AK2/1G
Point of View TNT2 64MB
Compaq NC 6136 Gbit SX
Boot: Maxtor 6Y250P0 (PATA, 8MB, 7200rpm, 250GB)
Areca 1160 met 10 maxtor disks en 2 seagate disks
Tagan TurboJet TG900-U95 900W
Win2k3 Enterprise

Symptomen:
De server crasht veelvuldig. Soms als hij idle is, maar meestal tussen 3 en 4 's nachts, wanneer de automatische defragmentatie aan de slag is (Diskeeper 10). De errorcode is nagenoeg altijd 0x0000009c, ofwel MACHINE_CHECK_EXCEPTION. Soms gaat het een paar dagen goed, soms crasht ie 4x per dag, om de onregelmatigheid maar even aan te duiden. Het feit dat de server vaak 's nachts crasht lijkt mij het gevolg van een algemene grotere load op het systeem, niet op de schijven specifiek.

Meestal reboot de server nadat hij z'n memory dump heeft gemaakt, maar 2/10 keer blijft het systeem hangen. Als ik dan de server een hard reboot geef brandt het LEDje van de bootdisk nog van het schrijven van de dump, maar in werkelijkheid is het systeem allang bevroren.

Research:
MS Knowledgebase
GoT
Google

Wat heb ik geprobeerd om het probleem te verhelpen:
  • Bios updaten (laatste bios was reeds geflashed)
  • Snelheden proberen aan te passen (moederbord heeft hier geen functies voor, alleen de memory settings performance/normal)
  • Bank- en node memory interleaves aan/uit gezet
  • Bootdisk checken met Powermax
  • Lowlevel format van de bootdisk, frisse Windows install
  • Memtest een paar nachten laten draaien
  • Prime95 laten draaien
  • Hot CPU tester pro gebruikt om CPU en caches te testen
  • Diskeeper en virusscanner niet geïnstalleerd
  • CPU's individueel in het systeem testen (single CPU, beide getest)
  • Geheugen in een andere volgorde in de banken zetten
  • PCI devices uit het systeem laten, andere volgorde in de banken
Al het bovenstaande had weinig tot geen resultaat. Helaas heb ik geen ander geheugen en/of moederbord kunnen testen, het is niet zo dat ik nog een paar reepjes ECC/REG of een dual opteron plank hier heb liggen. ;)

Conclusie:
Ik denk dat het moederbord naar de gort is. Als de server crasht, lijkt het een combinatie van factoren. CPU, geheugen en disk checks geven individueel geen problemen.

Vragen:
Zijn er andere tests die ik nog uit kan voeren? (en die zinnig zijn)
Waar zou het eventueel anders aan kunnen liggen?

[ Voor 5% gewijzigd door Fauna op 29-04-2007 11:35 ]


Verwijderd

Mij lijk het juist een cpu probleem te zijn, die in beide cpu's zit (namelijk rotte cache).

Kun je een leen cpu krijgen, zou ik daar eens mee gaan testen. Daarna met ander geheugen en pas als laatste het moederbord vervangen.

  • BalusC
  • Registratie: Oktober 2000
  • Niet online

BalusC

Carpe diem

Je bent de voeding in de specs vergeten :) Een Dual Opteron met 13 harddisks vergt nogal wat van de voeding.

[ Voor 4% gewijzigd door BalusC op 29-04-2007 11:14 ]


  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
BalusC schreef op zondag 29 april 2007 @ 11:14:
Je bent de voeding in de specs vergeten :) Een Dual Opteron met 13 harddisks vergt nogal wat van de voeding.
Inderdaad, vergeten :X

Tagan TurboJet TG900-U95 900W
Zou toch genoeg sap moeten zijn voor dit systeem. Voltages wijken niet noemenswaardig af.

Verwijderd

als het goed is kan je de l2 cash uit zetten in de bios
Het systeem word dan wel sloom maar je kan wel kijken of het daar aan ligt
Verder wat zijn de temp?
De cpu's maar ook je kast.
Als je harddisks test doet loop de temp van de harddisks aardige op wat voor zogt dat de kast te warm word
Met het vervolg dat het systeem gaat hangen

  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Verwijderd schreef op zondag 29 april 2007 @ 14:30:
als het goed is kan je de l2 cash uit zetten in de bios
Het systeem word dan wel sloom maar je kan wel kijken of het daar aan ligt
Verder wat zijn de temp?
De cpu's maar ook je kast.
Als je harddisks test doet loop de temp van de harddisks aardige op wat voor zogt dat de kast te warm word
Met het vervolg dat het systeem gaat hangen
Ik heb helaas geen mogelijkheid om de caches uit te zetten. Het bios is erg beperkt.

De temperaturen van de cpu's schommelen rond de 50-60c, maar dit is op zolder in een afgesloten ruimte met de CV er ook nog bij. Ambient is 30c dus ofzo. Ik ben me bewust van degelijke koeling, ik heb er zelfs andere koelblokken opgezet, de Silverstone NT01 v.2.0 om precies te zijn. Verder worden de schijven van koeling voorzien door 4x 120mm fans, waarvan de temperatuur niet boven de 40c komt. Zie ook m'n site, dan heb je een idee van de situatie ;)

Verwijderd

De temperaturen van de cpu's schommelen rond de 50-60c

Wat is de maximalen temp van die cpu's?
Ik dacht iets van 65graden.
Dan zit jij al vlak bij de max van de temp.
Als die temp ook nog idel is dan bij max gebruik wat ook gebeurt bij een harddisk controlle.
Gaat de temp nog hoger oplopen.

Oke die koelblokken zijn met heatpipes.
Humm

http://www.alternate.nl/h...Details.html?artno=HXLI01
dit is jouw blok
http://www.alternate.nl/h...Details.html?artno=HXLR10
Zelf zal ik voor deze gaan met een goeie fan er op
Probleem van jouw blok is dat de vloeistof eerst echt warm moet worden voordat het verplaats.
De keuze die ik zal meken werkt ook met heatpipes maar koelt zo ook compleet rondom de socket wat er voor zorgt dat er geen warmte blijft hangen.

Mog je toch voor anderen koelers gaan en je heb er ruimte voor
Dan zijn dit echt goeie koelblokken .

Oke maar hier mee verhelp ik jouw probleem niet
Zet een fan flak op de cpu en zet die aan (zalman rekkie die boven de cpu kan zetten of iets zelf maken)

[ Voor 57% gewijzigd door Verwijderd op 29-04-2007 17:36 ]


  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Hm, zou het toch temperatuur gerelateerd zijn?

http://balusc.xs4all.nl/s...orSocket940DualChannelDDR
70c is het maximum, daar kom ik niet aan als het goed is.

Plaatje van de huidige setup:
Afbeeldingslocatie: http://www.meldersnet.nl/~fauna/uddy/koelers/PICT0095_klein.jpg

Toegeven, het is wat provisorisch, maar beter dan dit wordt het niet. Ik heb een hele tijd zitten worstelen met het zoeken naar een goed koelblok. Met de meeste (waaronder de boxed cooler) bleef de warmte tussen de CPU's hangen vanwege de richting van de lamellen. Zo is er in ieder geval nog doorstroming. Scheelde in ieder geval al een graad of 10. Maar volgensmij had ik er met de oude coolers nog geen last van. De bliksem is hier ooit ingeslagen, waarbij in ieder geval de voeding schade defect is geraakt. Dat was toen het enige merkbare, en dus het enige wat ik bij de verzekering had opgegeven.

Verwijderd

o lekker
Je geheugen word opgewarmt door die heatpipes van je koelblok.
Dat zal het probleem wel eens kunnen zijn
Heb je de originelen koelers nog
Dan kan je kijken of het over is.

Trouwens het weer word nu warmer duss je temp gaat nog verder stijgen en gaat je server plat

  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
De oude terugplaatsen? Dan worden de CPU's dus nog warmer he.. Ik denk dat het averechts gaat werken. De airflow is trouwens van rechts naar links he.. En van rechts komt de airflow van 4 andere 120mm fans aanzeilen (welliswaar opgewarmd door de HD's)

Bovendien moet dan het hele moederbord los. Ik zal kijken of ik er morgen tijd voor heb. Niet geschoten is altijd mis natuurlijk.

[ Voor 24% gewijzigd door Fauna op 29-04-2007 18:34 ]


  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Nou, ik heb vanmiddag alles om zitten bouwen. Het duurde ff, en had voor de zekerheid nog een northbridge fan tussen de stock heatsinks gezet om de warmte daar weg te voeren.

Ik zet de server aan, check nog even in het BIOS de temperaturen voor de zekerheid. In windows zet ik prime95 en een defrag aan, binnen 5 minuten heb ik al een BSOD. Na een koude start dus, wat zou moeten betekenen dat de temperaturen nog helemaal niet zo hoog kunnen oplopen. De (100% aluminum) stock heatsinks worden wel goed heet, dus de Arctic Silver doet z'n werk. Na de BSOD kijk ik in de BIOS wat de temps zijn, dat was ongeveer 63 en 57c voor de CPU's. Ik wil het bios weer verlaten, heel het scherm naar de klote. Allerlei gekke tekens, kleuren. Na een reset deed alles het weer, maar het was toch ff een vreemd moment. Ik heb ook nog even de voltages gecheckt, daar was niets mis mee met 12.22, 5.10 en 3.34V.

Conclusie: Stock coolers heeft geen resultaat.

Verwijderd

stock koelers hebben wel resultaat
Als je nu nog steets bsod blijft houwen dan is het toch temp afhankelijk geweest
Je temp is nu namelijk hoger
Trouwens voor een AMD Opteron 244 (S940, 1.8GHz, 1MB, 400MHz Bus, 85W, Boxed)
Vind ik de temp gewoon veel ste hoog.
En met de anderen koelers is het ook te hoog.
Een amd 64 1,8ghs met 1mb worden zelfs minder heet.
Een amd 64 nieuwe model worden zelfs heter dan de 120mircon versie wegens ss3
Terwijl een opteron gekozen word dat ze juist koel blijfen in hete setups. (beters chips')
Wat het ook is iets word gewoon te warm en zal me inderdaad niks verbazen dat de moederbord een dreun heeft gehad door de hitte.

Kan je de server niet op een koeler plek neer zetten om te testen
En wat voor kast heb je

  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Ik zet em vanavond wel hier onder het raam, goed? Ik weet echt 95% zeker dat het niets met temperatuur te maken heeft.

En dan nog: ik heb vandaag de stock coolers gebruikt, die zijn toch ontworpen om de CPU afdoende te koelen, niet dan? Die millimeters dikke koelprut die er standaard op zit is er natuurlijk allang vanaf, en in plaats daarvan een klein beetje Arctic Silver 5. En ja, de heatsinks worden goed heet.

Verder staat er normaal gesproken in de case een best windje, zeker als de zijpanelen erop zitten. Airflow is er dus genoeg, en de rest van de heatsinks op het mobo worden niet te heet. Het lijkt me dus stug dat het moederbord 'een dreun heeft gehad door de hitte'. Zoals eerder gezegd, ik verdenk de eerdere blikseminslag, maar toendertijd was er niet direct iets te merken. En het feit dat het altijd dezelfde stopcode is doet mij er toch aan denken dat het ook steeds dezelfde oorzaak is, anders dan een van de vele componenten net een graadje boven de specs zit.

Verwijderd

[XP MCE] stop 0x0000009c Machine_check_exception
Hier nog iemand die het zelfde probleem heeft
Het deed me denken aan de ouwe thunderbird die boven de 1000mhz loopte
Die gaven de zelfde problemen als die van jouw .
De oplossing van amd was toen der tijd de spanning van de cpu's te verhogen met 0,05volt.
Nu wil dit niet zeggen dat jij dat moet doen.
Maar het is wel zo hoe hoger de temp is hoe moelijker de cpu het heeft om te schakelen intern.

Stukje uit micro zelf

systeembusfouten;
• geheugenfouten die pariteit of ECC-problemen (Error Correction Code) hebben;
• cachefouten in de processor of hardware;
• TLB-fouten (Translation Lookaside Buffers) in de processor;
• andere bekende hardwareproblemen die speciefiek zijn voor bepaalde CPU-leveranciers;
• bekende hardwareproblemen die specifiek zijn voor bepaalde leveranciers

Kan jij ecc uit zetten?
Bij mij cpu's kan ik de l2 cash uitzetten voor ecc (elke l2 cash op de cpu is ecc)
Dan controlleert de cpu niet meer of antwoord a ook antwoord a is maar verwerkt het gewoon.
Het is namelijk mogelijk dat de l2 cash beschadigt is maar kan ook zijn dat de geheugen controller van de cpu niet meer lekker is.

  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Verwijderd schreef op maandag 30 april 2007 @ 19:29:
Kan jij ecc uit zetten?
Bij mij cpu's kan ik de l2 cash uitzetten voor ecc (elke l2 cash op de cpu is ecc)
Dan controlleert de cpu niet meer of antwoord a ook antwoord a is maar verwerkt het gewoon.
Het is namelijk mogelijk dat de l2 cash beschadigt is maar kan ook zijn dat de geheugen controller van de cpu niet meer lekker is.
Weet ik, en dat heb ik hierboven al gezegd: mijn bios heeft geen functie om de L2 cache uit te zetten. Ook kan ik geen voltages veranderen.

Wat ik in de TS niet heb vermeld, maar wel heb gedaan, is de met de ECC instellingen van het geheugen gespeeld naast aan/uit waren er nog een aantal andere zaken als chip kill en weet ik wat nog meer. Maar welke instelling ook, het systeem blijft crashen, en memtest geeft geen enkele fout.

Verder wil ik nog een keer benadrukken dat losse tests van bijv. ultimate boot CD het systeem geen enkele keer laten crashen of foutmeldingen geven. Ik kan memtest en cpu stess tests draaien bij het leven, maar dan gebeurt er niets. Dit is dan uiteraard buiten windows. Maar zodra er gecombineerde activiteit is - wat ik alleen kan reproduceren in Windows - gaat er wel iets fout. En ook in de losse tests warmt het hele systeem incl. CPU's op.

Daarnaast heb ik dus ook al met een enkele CPU getest, zoals in de TS staat. Hierdoor warmen alle componenten veel minder op natuurlijk.

[ Voor 5% gewijzigd door Fauna op 30-04-2007 20:07 ]


Verwijderd

Gebruik eens de standaard defragmentatie tool.

ben zelf ook niet zo'n fan van diskkeeper.

B.v. O&O Defrag for servers...

Haal dat stukkie software even er af, reboot je server, and try again.

We lezen het graag.

  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Ik heb diskeeper er al afgehaald omdat ie dus inderdaad vaak crashte met defragmenteren. Ook zonder dat programma of uberhaupt te defraggen crasht de server ook.

  • Mint
  • Registratie: Mei 2005
  • Laatst online: 18-02 17:03
Hey Fauna :w

Had je dit probleem al toen je nog maar 1 CPU erin had? Volgensmij niet/minder, dus dan zou ik het eerder zoeken in je mobo/cpu's, en niet in de temps ervan. Als de temps te hoog zouden zijn, zou die server niet de ene keer binnen 5 minuten eruit knallen, en de andere keer na een paar dagen uptime.

  • Fauna
  • Registratie: December 2000
  • Laatst online: 22:04
Inmiddels zijn we al weer 2 dagen verder. De server staat hier nog steeds op mn kamer, waar het zeker 's nachts met het raam open goed koel word. En wat schetst mijn verbazing: de afgelopen nachten is er niets geks gebeurd.

Ik heb zelfs maar m'n DC hash index verwijderd en opnieuw laten aanmaken (daar is ie met 3TB toch wel meer dan een dag mee bezig) en ook geen crashes.

Voor de duidelijkheid: dit alles is met de stock coolers, maar wel met extra intake fans in de zijkant, ter hoogte van de CPU's. Ik heb deze nu weer uit gezet, kijken wat er vannacht gebeurt.

Het zou dus toch iets met temperatuur te maken kunnen hebben. Ik blijf proberen, want hij crashte voorheen ook niet per definitie iedere nacht.

I'll keep you posted :)
Pagina: 1