[2000 server] twee servers tonen na stroom uitval BSOD

Pagina: 1
Acties:
  • 242 views sinds 30-01-2008
  • Reageer

  • The_Butler
  • Registratie: April 2001
  • Laatst online: 14-02 19:10
Windows 2000 Server SP 4
HP Proliant DL380 (2X)

Ik heb twee servers die volgens de planning volgende week in bedrijf gaan. Een van de laatste test die mijn client wilde doen was een simulatie van stroomuitval (3x), om te kijken of alles netjes opstartte. De eerste ronde ging perfect, beide HP Servers kwamen netjes online en begonnen met het draaien van alle benodigde software. Na de tweede keer hing de eerste server tijdens het booten, de tweede server kreeg, nadat het login scherm er echt een fractie van een seconde stond, een BSOD. De eerste server starte na een reboot nog 1 keer goed op, maar daarna had deze het zelfde probleem. Het apparte is alleen dat ik iedere keer en andere melding krijg op beide machines, altijd wel op het zelfde moment: aan het einde van de opstart procedure wanneer de login prompt net op her scherm wordt gezet.

- 0x000000D1 DRIVER_IRQL_NOT_LESS_OR_EQUAL
- 0x0000007F UNEXPECTED_KERNEL_MODE_TRAP
- 0x00000044: MULTIPLE_IRP_COMPLETE_REQUESTS

Ik heb uiteraard op google en op het forum rondgezocht naar de oorzaken, maar het feit dat ik telkens andere foutmeldingen krijg vind ik bijzonder appart. Ook kan ik er met mijn verstand niet bij dat twee machines op het zelfde moment ermee uit scheien, dat kan bijna geen hardware fout zijn denk ik? Ik heb vanochtend wel een service pack van een stuk software op beide machines geinstalleerd, maar dat mag denk ik ook geen probleem zijn... Ze starten trouwens we goed op in Safe Mode. De voeding van de machines komt van een geconditioneerde UPS (geen pieken etc)

Ik ga nu verder spitten op het internet en de foutlogs doorzoeken en contact opnemen met de fabrikant van dat service pack. Maar mijn vraag aan jullie is of het normaal is voor een server om iedere keer een andere foutmelding in een BSOD te gooien?

at your service


  • LeX-333
  • Registratie: Maart 2004
  • Laatst online: 21-11-2016
Hoe heb je deze power failures gesimuleerd? Heb je de UPS er tussen gelaten en zijn de servers normaal afgesloten via de stroom van de UPS of heb je de voeding van de servers er direct uitgetrokken en zijn de servers niet netjes afgesloten?

<speculatie>
In het eerste geval kan het bijvoorbeeld zijn dat je UPS stuk is gegaan en niet voldoende (stabiel) stroom meer kan leveren om je servers draaiende te houden, in het tweede geval heb je waarschijnlijk te maken met een corrupt filesystem of zelfs defecte hardware.

Het feit dat het wel werkt in safe mode kan betekenen dat bepaalde hardware waarvan de drivers in safe mode niet geladen wordt defect is, denk hierbij aan de videokaart, RAID/SCSI controllers, netwerk adapters, geluidskaart, etc. Ook wordt in safe mode bijna geen gebruik gemaakt van hardware accelleratie, hierdoor gebruikt je systeem soms (veel) minder stroom in safe mode.

Controleer of je UPS voldoende vermogen heeft om je servers draaiende te houden, let op dat je rekening houdt met piek en nominaal verbruik en voldoende marge hebt. Het kan bijvoorbeeld zijn dat je UPS overbelast is geweest en niet voldoende stroom heeft kunnen leveren, hierdoor kunnen je voedingen defect zijn geraakt.
</speculatie>

Als je een backup hebt van voor de test kun je die eventueel eens terugzetten en kijken of dat de problemen oplost, dan wordt meteen een heleboel duidelijk.

Too many people, making too many problems


  • The_Butler
  • Registratie: April 2001
  • Laatst online: 14-02 19:10
We hebben de twee hoofdschakelaars omgezet terweil de servers gewoon aan het draaien waren. Het idee dat er mischien files corrupt zijn geraakt is mogelijk, maar op beide systemen tegelijk? Ik ben er vrijwel zeker van dat de UPS genoeg kan leveren, maar ik zal het checken.
Een simpele test is om gewoon 1 server op te starten terweil de tweede netjes uit staat denk ik? (ok, ik zal proberen een meter er op te zetten O-) )
Een ander ding waar ik nu naar kijk is de firmware voor de HP's, dit is de eerste keer dat ze niet netjes zijn uitgezet, dus mischien dat de "Lights-Out" software roet in het eten aan het gooien is.

Hoe kan ik uitvinden of het een corrupte file is? Ik verwacht eigenlijk dezelfde foutmelding keer op keer, maar de meldingen veranderen, zoals gesuggereerd wordt door HP als er een firmware issue is.
Ik hou jullie op de hoogte.


HP has discovered a timing issue between some higher speed processors and the system management ASIC on the system board. This timing issue could cause some multiprocessor ProLiant servers with HP Advanced Memory Protection feature support to intermittently stop responding and possibly generate a Microsoft blue screen exception with one of the following bug check STOP codes. The server must then be rebooted to recover.

0x000000d1 (0x0, 0x2, 0x0, 0x0) DRIVER_IRQL_NOT_LESS_OR_EQUAL
Note: Although the bug check STOP code may vary, the above STOP code has been observed more frequently with this issue than the STOP codes below.

0x0000001e KMODE_EXCEPTION_NOT_HANDLED
0x0000000a IRQL_NOT_LESS_OR_EQUAL
0x0000001a MEMORY_MANAGEMENT
0x000000c2 BAD_POOL_CALLER
0x0000007e SYSTEM_THREAD_EXCEPTION_NOT_HANDLED

at your service


  • Viper®
  • Registratie: Februari 2001
  • Niet online
Vreemd, ik had thuis vroeger een UPS van APC en daarbij zat software die automatisch of geforceerd je windows afsloot op het moment dat de stroom eraf was en de ups was on low battery

Op die manier krijg je nooit corrupte data. Je kon zelfs nog programma's draaien voor het afsluiten om bijvoorbeeld een sql query te doen oid.

  • wagenveld
  • Registratie: Februari 2002
  • Niet online
Gaat het om de G5? Met wat voor RAID controller? Je hebt een BBWC nodig als je er voor wilt zorgen dat data bewaard blijft bij een stroomuitval, maar als die er niet opzit zou de write cache uit moeten staan > geen corruptie.

Wat nog wel regelmatig voorkomt bij een bepaalde revisie PSU's van de G5 is dat ze bij een stroompiek onderuit gaan. De moeite waard dus om even te checken met een andere (ik neem aan dat ze redundant zijn uitgevoerd?)

  • The_Butler
  • Registratie: April 2001
  • Laatst online: 14-02 19:10
Mijn reactie is wat laat; t hotel waar ik logeer heeft geen internet helaas, maar als antwoord op je vraag:
Het zijn twee G4 Proliant servers, met SCSI RAID 0. De Bios merkte ik gisteren is van 10/10/2005, lijkt me iets aan de oude kant. De voedingen zijn inderdaad redundant, en ze lijken goed te werken. Ik moet er denk ik wel bij vermelden dat mijn UPS geen normale UPS is maar een behoorlijk groote. Dit systeem staat namelijk op een oilie raffinaderij, en de servers gaan straks plaatjes en alarm data tonen aan de clients die aan het netwerk hangen...

Gisteren avond geberude er wel iets vreemds; de eerste server kwam weer tot leven. Het was alleen al zo laat dat ik de logs (waar ik wel snel een backup van heb gemaakt) nog niet heb kunnen /willen bekijken. Ik had ook meteen die software patch ge-uninstalleerd, hoewel ik nogsteeds denk dat dat weinig met deze zaak temaken heeft.

mijn zaak vandaag is denk ik om HP met een belletje te vereren...

at your service


  • wagenveld
  • Registratie: Februari 2002
  • Niet online
Dan krijg je waarschijnlijk 1 van mn collega's aan de lijn ;) Die is altijd blij met blauwe schermen :P

Het hangt van de RAID controller af, maar het is de moeite waard om even de controller driver na te kijken, er zijn er een paar die problemen geven met de laatste PSP.

  • The_Butler
  • Registratie: April 2001
  • Laatst online: 14-02 19:10
In wat voorn omstandigheden faalt de hardware meestal? Deze servers zijn inmiddels bijna een jaar oud maar werden tijdens het testen in huis iedere avond netjes afgesloten en in de ochtend weer opgestart. Maar nu staan ze minstens al twee maanden continu te draaien. Vertel je collega dat ie maandag ochtend met een belletje wordt vereerd ;) Ik zit nu trouwens weer thuis, en volgende week ga ik weer terug om in ieder geval 1 machine opnieuw te installeren.
Server 1 is inmiddels weer buiten actie; crashte tijdens het draaien van een stuk software en kwam niet meer tot leven.

at your service

Pagina: 1