[Verschillende OS'] Onverklaarbare vastlopers Serverhardware

Pagina: 1
Acties:

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Beste Tweakers,

Graag hoop ik jullie in te kunnen schakelen bij het volgende probleem:
Mijn server (NAS, hoe je het ook wilt noemen) loopt om de haverklap vast.
Het systeem bevriest gewoon letterlijk, geen BSOD, geen foutmeldingen in de Eventlog, geen haperingen, gewoon vast. Als er een screensaver in beeld staat, loopt deze ook gewoon vast.

De hardware:

Intel S5000VSA socket 771 moederbord
2 x Intel Xeon E5320 (1.86Ghz) quad-cores
2 x 2GB + 2 x 1GB FB-Dimm (Samsung en Kingston) 667Mhz

HP Smart Array P400 RAID Controller met daarop:
3 x HP 146GB 10k SAS schijfjes in RAID5
4 x Seagate 1.5TB 7200RPM SATA in RAID5

Wat ik allemaal gecontroleerd heb:

Software:
Ik heb Windows wel 5x opnieuw geinstalleerd. Zowel 2003, 2008 als 2008R2 heb ik geinstalleerd.
Ik heb verschillende drivers geprobeerd, BIOS, BMC en SMBus zijn geupdate naar laatste nieuwe versie.
Memtest gedraaid, verschilende CPU tests onder DOS geprobeerd (via Hiren's boot cd)
wPrime is uren stabiel.

Hardware:
Randaarde is goed,
Koeling is goed (CPU's zitten rond de 45-50 graden, geheugen rond de 60, maar dat is normaal met FB-Dimm)
Chipset is ook gewoon koud, en geen speciale foutmeldingen in Intel Active Console (over rare spanningen ofzo)
Voeding is vrij nieuw (620 watt) en het verbruik gemeten op het stopcontact (190w idle, en 280w load) is ook niet genoeg om de voeding over te belasten.

Linux heb ik wel geboot gehad van live cd, maar kreeg grub niet aan de gang, dus dat kon ik niet langdurig testen.
Wat wel gezegd mag worden is dat 2008 en 2008R2 anders vastliepen, namelijk wel met een BSOD.
De fout was "Clock interrupt was not recieved within specified window". Deze fout heb ik opgezocht via google, en lijkt een compatibiliteits probleem te zijn waar aan gewerkt word. Het zou niet aan de hardware liggen word er gezegd.

Heeft er nog iemand een idee?, want ik word er verdrietig van :(

Even niets...


Verwijderd

Als ik er op google krijg ik toch een beetje het vermoeden van een brakke proc.
Zie je een mogelijkheid een andere te proberen? Of als je er 2 heb er 1 uit te halen?

  • Petervanakelyen
  • Registratie: December 2006
  • Laatst online: 04-02 22:56
Verwijderd schreef op woensdag 23 september 2009 @ 17:16:
Als ik er op google krijg ik toch een beetje het vermoeden van een brakke proc.
Zie je een mogelijkheid een andere te proberen? Of als je er 2 heb er 1 uit te halen?
Ik heb weinig ervaring met servers, maar CPU's gaan echt zelden kapot...

Somewhere in Texas there's a village missing its idiot.


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
De CPU'skoelers zitten met een vrij custom mod (lees: schroefjes en boutjes) vast op het moederbord... Ik zou ze wel kunnen verwisselen, maar dat is echt een kriem om te doen...
Daar wPrime echt stabiel is, en ook gewoon snel is, verwacht ik echt niet dat dat het probleem is...
Zou het wel een CPU probleem zijn, zou je denken dat de BMC wel een event genereerd over foutieve CPU, (want op het moment dat er errors komen, kan de andere CPU het toch overnemen?)
Dat Windows daarna crasht snap ik , maar dan zou er toch enig vorm van BSOD of eventlog in mijn BMC moeten komen?

Edit: Wat ik ook nog geprobeerd heb is de netwerkkaart vervangen voor een ander Intel PCI-X 1000MT exemplaar. Wat ook niet resulteerde in stabiliteit.

[ Voor 12% gewijzigd door FireDrunk op 23-09-2009 19:07 ]

Even niets...


  • Gamebuster
  • Registratie: Juli 2007
  • Laatst online: 09:40
Beetje standaard opmerking, maar ik zeg 'm toch:
Probeer eens met 1 2GB reep of 2 1GB repen. Zo heb je minder dan 4GB en zit je ook niet met de mogelijke incompatibiliteit met 1 van de 2 soorten geheugen of met elkaar.

Geheugen mengen kan soms een onduidelijke bron van elende zijn.

Let op: Mijn post bevat meningen, aannames of onwaarheden


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Vanochtend 2 x 1GB geheugen uit mijn server gehaald. Vanmiddag weer een vastloper...

Edit: 16:51, andere 2 reepjes geheugen erin (Dus nu 2 x 1GB)

Edit: 18:31, weer een vastloper, het geheugen is het dus echt niet...
(of iig voorbij wat ik kan testen, 1 bankje pikt het moederbord namelijk niet)

Edit: 22:50 weer een vastloper...

Nou rest nog een nieuwe voeding.. of een andere mobo/cpu combo...
Van het weekend (of morgen misschien nog) maar eens Linux installeren op een losse schijf, en alle andere hardware eruit halen (zoals mijn RAID controller) en dan eens stresstesten...

[ Voor 93% gewijzigd door FireDrunk op 24-09-2009 22:52 ]

Even niets...


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Vandaag maar even gekeken waarom mijn server maar 3GB geheugen detecteerde (na gister te hebben geklooit met geheugen).
Bleek dat ik ze niet om en om had zitten maar 1GB, 2GB, 2GB, 1GB... dus werden de 2e 2 bankjes gedisabled... hierdoor werd mijn geheugen als Single Channel ingesteld.

Ook dat resulteerde helaas in een vastloper vannacht ;(

Even niets...


  • neliz
  • Registratie: Oktober 1999
  • Laatst online: 11-02-2025

neliz

GIGABYTE Man

en wat gebeurt er met slechts één CPU? Klinkt namelijk als een probleem met of je mobo of CPU. Als het een merk server was zou ik meteen het mainboard laten vervangen.

[ Voor 43% gewijzigd door neliz op 25-09-2009 10:35 ]

Miss you CJ....:'( en nee... ik kan niet aan samples komen


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Het is allemaal 2e hands spul wat ik zelf samengesteld heb.
Het is voor mij erg lastig om 1 CPU eruit te halen, want de koelers zitten nogal 'goed' vastgemaakt...
Van het weekend eerst linux proberen, en mocht dat falen ga ik de CPU wel verwisselen.

Even niets...


  • alt-92
  • Registratie: Maart 2000
  • Niet online

alt-92

ye olde farte

thijs_cramer schreef op vrijdag 25 september 2009 @ 15:20:
Het is allemaal 2e hands spul wat ik zelf samengesteld heb.
Zijn je beide processoren wel van dezelfde stepping en heb je gecontroleerd dat deze geschikt zijn voor SMP?

ik heb een 864 GB floppydrive! - certified prutser - the social skills of a thermonuclear device


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Ik ga er van uit dat dat door de vorige eigenaar gecheckt is ;)
Maar ik zal zo even kijken...

Edit: Et voila!
Afbeeldingslocatie: http://www9.picfront.org/picture/TnCB300g/thb/stepping.jpg

[ Voor 44% gewijzigd door FireDrunk op 25-09-2009 16:07 ]

Even niets...


Verwijderd

Crap, ik heb ook een gelijkaardig probleem gehad op een HP DL360 (geen idee meer welke G). Kan me nu alleen zo direct niet meer herinneren wat de oplossing was. In ieder geval draaide Prime toen ook prima, maar toch crashte hij regelmatig (2003 std trouwens). Als ik een gok zou moeten wagen is het dat ik het geheugen allemaal vervangen heb.
CPU kan ook zijn, maar dat heb ik dan sowieso laten doen door HP.

Ik zou in ieder geval proberen de CPU's eruit te halen, lijkt me op dit moment de grootste kanshebber.

Ofwel was het toch wel degelijk die CPU die ik heb laten vervangen, ik durf er echt niet meer zeker over zijn.

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Net mijn gehele raidcontructie af gekoppelt en een laptop schijfje met SATA aan de onboard controller gehangen, Windows 2003 kaal geinstalleerd en alleen windows update gedraaid. Geen drivers...

Net een vastloper :'(

Ik vrees dat 1 van mijn CPU's toch echt overleden is :'(

Even niets...


  • Petervanakelyen
  • Registratie: December 2006
  • Laatst online: 04-02 22:56
Toch lijkt dat me sterk. Ze zijn beide Prime-stable, en over het algemeen gaan CPU's helemaal niet kapot.
Wat mij logischer lijkt:

a) Het moederbord: het enige wat je nog niet echt hebt getest, en dat is wel het onderdeel dat de cummunicatie ed. verzorgt.
b) RAM, ook al is het MemTest86-stable, de temps liggen echt wel hoog.

Somewhere in Texas there's a village missing its idiot.


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Het geheugen heeft zelfs een stickertje erop met "Warning! Hot Surface!" Dus 60c lijkt me nog niet direct cruciaal ;)
Het moederbord lijkt mij ook de boosdoener zoals jij het brengt, alleen zou dan toch echt Events in je BMC log verwachten...

Even niets...


  • Graviton12
  • Registratie: Juni 2008
  • Laatst online: 07-02 14:41
Memtest pikt niet alle slechte geheugens eruit, misschien eens testen met andere software?

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Welke raad je aan?

Edit:
Linux geinstalleerd op het laptopschijfje (Ubuntu 64-bit server 9.04).

Nu maar afwachten of ik in de logs kan zien welke processor er de brui aan geeft :| :X

[ Voor 82% gewijzigd door FireDrunk op 26-09-2009 15:37 ]

Even niets...


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Vandaag maar even kijken of mijn server nog online is, en jawel hoor...
Een uptime van 21 uur met een load van 0.00...

Iemand een vervanger voor wPrime voor Linux? (Ubuntu)

Even niets...


  • Petervanakelyen
  • Registratie: December 2006
  • Laatst online: 04-02 22:56
Iemand een vervanger voor wPrime voor Linux? (Ubuntu)
Ik dacht dat er een linux-versie bestond van SuperPi, en anders run je het gewoon in Wine ?
Het moederbord lijkt mij ook de boosdoener zoals jij het brengt, alleen zou dan toch echt Events in je BMC log verwachten...
Niet per se. Ik heb hier een Compaq ProLiant ML350 server staan, en had een Pentium II cpu geïnstalleerd in plaats van de standaard P3 (single CPU).

Om de een of andere reden viel het ding soms ineens uit, en het bleek dat het BIOS van het moederbord niet overweg kon met Pentium II CPU's, ook al kreeg ik geen enkele melding, ook niet in het event-log.

Dit gewoon ter illustratie dat je dus niet per se fouten moet krijgen in de eventvieuwer.
Wat RAM betreft zal het wel OK zijn, nu verdenk ik eerder:

a) Moederbord
b) RAID-controller

[ Voor 67% gewijzigd door Petervanakelyen op 27-09-2009 14:59 ]

Somewhere in Texas there's a village missing its idiot.


  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 23-02 13:11
Heb intussen ruim een uur stresstests gedaan met simultaan CPU belasting en IO belasting...
Ik kwam op een load van 28 uit :) En nog steeds stabiel...

20:50 Server niet meer bereikbaar, ik loop naar mijn server toe.

[TIMESTAMP] CPU#3 BUG, Stuck for 81s now.

Het is dus nu wel duidelijk :(

Bedankt voor de hulp iig allemaal!

[ Voor 38% gewijzigd door FireDrunk op 27-09-2009 20:55 ]

Even niets...

Pagina: 1