Misterieus reboot probleem server

Pagina: 1
Acties:

  • Sluuut
  • Registratie: Februari 2003
  • Laatst online: 14:10
Hi mede tweakers,

We hebben hier een redelijk mistirieus reboot probleem van een server. Het gaat om een HP Proliant ML 350 (G5).

De reboots hebben op de volgende datums en tijdstippen plaatsgevonden:

14/08/2007 19:00:00
22/10/2007 19:00:16
05/11/2007 19:00:25
07/11/2007 19:00:00
08/11/2007 00:20:09
23/11/2007 18:59:34
07/12/2007 18:59:50
12/12/2007 18:59:42
12/12/2007 21:09:08
24/12/2007 19:00:10
04/02/2008 19:00:23
11/02/2008 19:00:32
19/02/2008 19:00:13

Zoals je ziet zijn de meeste reboots rond 19:00, maar sommige ook niet. Qua software heb ik volgens mij alles uitgesloten, er worden minidumps weggeschreven in c:\windows\minidump als er een blauw scherm verschijnt, maar die worden niet weggeschreven dus zijn er ook geen blauwe schermen (ga ik vanuit). Tevens zou er dan volgens mij een andere melding in het event log moeten staan. Er staat nu namelijk "The previous shutdown was unexpected"

Probleem is dat we niet elke avond om 7 uur daar kunnen gaan zitten om te checken of de server uitvalt of niet en wat er dan precies gebeurd. Soms gebeurd het een maand lang niet en dan ineens weer 2x achter elkaar...

- Windows updates zijn uitgeschakeld (tijdelijk).
- In de event log is verder niets te vinden over deze reboots
- Er is niemand aanwezig in het serverhok wanneer hij reboot (dus ook niemand die de stroom per ongeluk eraf zou halen, ook geen schoonmakers etc).

Er hangt een APC UPS aan die 90 minuten mee zou moeten gaan.

Heeft iemand ideeen waar ik zou kunnen kijken of wat ik zou kunnen doen, om erachter te komen waar het probleem zit?

[ Voor 4% gewijzigd door Sluuut op 21-02-2008 13:07 ]

57696520646974206c65657374206973206e657264


  • Dennahz
  • Registratie: November 2001
  • Laatst online: 06-02 23:22

Dennahz

Life feels like hell should.

Misschien een simpele gedachte: monitor aan laten, camera richten (Kan simpele webcam zijn) en filmen?

Zeker weten dat het geen software is die update doet en automatisch reboot o.i.d.?

[ Voor 29% gewijzigd door Dennahz op 12-02-2008 11:35 ]

Twitter


  • The_Greater
  • Registratie: Februari 2001
  • Laatst online: 06-02 14:20
Zijn alle licenties uptodate en/of ingevoerd?
Sommige pakketen laten namelijk de server rebooten zonder waarschuwing.

Working in the IT : "When you do things right, people won't be sure you've done anything at all"


  • ToFast
  • Registratie: Mei 2004
  • Laatst online: 25-01-2025
En anders toch een keer afpsreken om met 2 personen een avondje daar door te brengen (op kosten baas ;) )

  • Dennahz
  • Registratie: November 2001
  • Laatst online: 06-02 23:22

Dennahz

Life feels like hell should.

ToFast schreef op dinsdag 12 februari 2008 @ 11:41:
En anders toch een keer afpsreken om met 2 personen een avondje daar door te brengen (op kosten baas ;) )
Lijkt mij vrij nutteloos als er geen vast patroon in zit. Het kan gebeuren, maar het kan ook niet.

Twitter


  • redfoxert
  • Registratie: December 2000
  • Niet online
Heb je de schoonmaakster ook uitgesloten ?! :)

Waar staat deze server, in een rack, in een kast, in een buro, naast een tafel ... etc etc. Is er iets met de stroomtoevoer aan de hand? Gebeurt er rond 19:00 verder iets binnen het bedrijf waardoor er een spanningsdip in het stroomnet voorkomt en je server daardoor reboot?

Om maar even wat externe zaken aan te halen waar het misschien aan kan liggen. Ik heb al vanalles gezien :)

https://discord.com/invite/tweakers


  • wizzzzzz
  • Registratie: Februari 2002
  • Laatst online: 30-01 14:05
Is het toevallig een SBS 2003 server die niet "afgeïnstalleerd" is, dus niet als domaincontroller functioneerd? Dan reboot de server namelijk heel regelmatig omdat je SBS hiervoor niet mag gebruiken.

  • Sluuut
  • Registratie: Februari 2003
  • Laatst online: 14:10
wizzzzzz schreef op dinsdag 12 februari 2008 @ 11:45:
Is het toevallig een SBS 2003 server die niet "afgeïnstalleerd" is, dus niet als domaincontroller functioneerd? Dan reboot de server namelijk heel regelmatig omdat je SBS hiervoor niet mag gebruiken.
Het is inderdaad Windows 2003 Small Business Editie. Hij is wel een domain controller.

57696520646974206c65657374206973206e657264


  • Sluuut
  • Registratie: Februari 2003
  • Laatst online: 14:10
redfoxert schreef op dinsdag 12 februari 2008 @ 11:43:
Heb je de schoonmaakster ook uitgesloten ?! :)

Waar staat deze server, in een rack, in een kast, in een buro, naast een tafel ... etc etc. Is er iets met de stroomtoevoer aan de hand? Gebeurt er rond 19:00 verder iets binnen het bedrijf waardoor er een spanningsdip in het stroomnet voorkomt en je server daardoor reboot?

Om maar even wat externe zaken aan te halen waar het misschien aan kan liggen. Ik heb al vanalles gezien :)
Schoonmaaksters zijn uitgesloten ja ;)

Ik was vergeten te melden dat er een UPS aan hangt. Hierdoor is een spanningsdip al niet meer mogelijk als oorzaak.. aan de ene kant. Aan de andere kant kan de UPS ongeveer 90 minuten mee en stoppen ze om half 6 met werken. Dus stel iemand doet de stroom uit, dan zou hij rond 19:00 moeten uitvallen, wat ook gebeurd. Echter doet niemand dus een knop uit om half 6... daarnaast zou hij dan elke dag moeten uitvallen.

57696520646974206c65657374206973206e657264


  • The Realone
  • Registratie: Januari 2005
  • Laatst online: 06-02 18:25
Automatisch herstarten bij BSOD's uitschakelen?

Ok, je hebt dan welliswaar 1 nacht geen server (en mogelijk dus geen backup) in de lucht maar dan kun je in ieder geval de volgende ochtend de BSOD lezen.

  • SkiFan
  • Registratie: Juli 2001
  • Laatst online: 15:37
Je probleem is je ups. Die staat ingesteld om op bepaalde tijden een zelf-test te doen. Dit in combinatie met een defecte accu levert dit probleem op.

Trek je ups maar eens van de prik, je zult zien dat ie kaduuk is.

Jurist in zijn vrije tijd, IT'er van beroep.


Verwijderd

SkiFan schreef op dinsdag 12 februari 2008 @ 12:37:
Je probleem is je ups. Die staat ingesteld om op bepaalde tijden een zelf-test te doen. Dit in combinatie met een defecte accu levert dit probleem op.

Trek je ups maar eens van de prik, je zult zien dat ie kaduuk is.
Grote kans inderdaad.

  • Sluuut
  • Registratie: Februari 2003
  • Laatst online: 14:10
SkiFan schreef op dinsdag 12 februari 2008 @ 12:37:
Je probleem is je ups. Die staat ingesteld om op bepaalde tijden een zelf-test te doen. Dit in combinatie met een defecte accu levert dit probleem op.

Trek je ups maar eens van de prik, je zult zien dat ie kaduuk is.
UPS staat er pas sinds eind December, daarvoor was er nog geen UPS aangesloten en rebootte hij dus ook al.. dus hiermee kan ik de UPS uitsluiten (?)

Ik heb wel nog iets meer met HP System Management Homepage gevonden:
Onder Tasks staat ASR (Auto Server Recovery) en daarbij staat "Last Reset: Manual".
Het kan ook ASR zijn, wat in zou houden dat er een software of hardware failure zou zijn waarnaar ASR de server reboot... de vraag is dus alleen wat Manual in houd, of dat iemand hem (op afstand) echt uit zet? Denk dat ik even met HP moet bellen :)

Update:
HP geeft aan dat ASR ervoor zorgt dat de server reboot zodra er een probleem is, dus ook bij een blauw scherm. Dus mocht er een blauw scherm verschijnen dan heeft Windows niet eens tijd om hem weg te schrijven omdat ASR het systeem dan al reboot.. (lekker handig). Dus ik heb ASR op disabled gezet, nu maar afwachten of ik morgen of over 2 maanden een dump te pakken krijg :)

[ Voor 17% gewijzigd door Sluuut op 12-02-2008 13:47 ]

57696520646974206c65657374206973206e657264


  • Sluuut
  • Registratie: Februari 2003
  • Laatst online: 14:10
Het is nu de 21e en hij heeft de 19e weer om 19:00:13 een reboot gekregen. ASR was uitgezet maar toch word er geen memory dump weggeschreven, dus alsnog niets te achterhalen qua informatie..

Iemand nog ideeen?
Ik zou de firmware nog kunnen updaten en met een Smartstart CDtje een lange test kunnen draaien om te kijken of hij dan ergens op z'n bek gaat, maar dit zijn dingen die niet zo makkelijk kunnen gezien de server niet naast me staat (lees: er naartoe rijden).

[ Voor 37% gewijzigd door Sluuut op 21-02-2008 13:20 ]

57696520646974206c65657374206973206e657264


  • The Realone
  • Registratie: Januari 2005
  • Laatst online: 06-02 18:25
Ik heb hierboven ergens voorgesteld om het automatisch herstarten bij BSOD's uit te schakelen. Als je dat gedaan hebt zou je gewoon een BSOD moeten zien als je gaat kijken. Wellicht staat er genoeg in en heb je geen dump nodig.

  • Question Mark
  • Registratie: Mei 2003
  • Laatst online: 17:10

Question Mark

Moderator SSC/WOS

F7 - Nee - Ja

Als de server goed is uitgerold middels de smartstart cd's, dan is er ook een System Management homepage geinstalleerd (https://localhost:2381). Hier zit ook een logging in waar de stopcode bij een BSOD wordt weggeschreven.

Controleer deze eens :)

[ Voor 4% gewijzigd door Question Mark op 22-02-2008 11:06 ]

MCSE NT4/2K/2K3, MCTS, MCITP, CCA, CCEA, CCEE, CCIA, CCNA, CCDA, CCNP, CCDP, VCP, CEH + zwemdiploma A & B


  • The Realone
  • Registratie: Januari 2005
  • Laatst online: 06-02 18:25
Question Mark schreef op vrijdag 22 februari 2008 @ 11:05:
Als de server goed is uitgerold middels de smartstart cd's, dan is er ook een System Management homepage geinstalleerd (https://localhost:2381). Hier zit ook een logging in waar de stopcode bij een BSOD wordt weggeschreven.

Controleer deze eens :)
Echter, grote kans dat als er geen dumps worden gemaakt (of gemaakt kunnen worden) hier ook geen stopcode aanwezig zal zijn lijkt me.

  • Question Mark
  • Registratie: Mei 2003
  • Laatst online: 17:10

Question Mark

Moderator SSC/WOS

F7 - Nee - Ja

The Realone schreef op vrijdag 22 februari 2008 @ 11:31:
[...]
Echter, grote kans dat als er geen dumps worden gemaakt (of gemaakt kunnen worden) hier ook geen stopcode aanwezig zal zijn lijkt me.
Ik heb ook wel eens BSOD's meegemaakt waarbij geen dump gemaakt werd, maar toch een error in de IM Log werd weggeschreven. TS kan het altijd controleren...

MCSE NT4/2K/2K3, MCTS, MCITP, CCA, CCEA, CCEE, CCIA, CCNA, CCDA, CCNP, CCDP, VCP, CEH + zwemdiploma A & B


  • Sluuut
  • Registratie: Februari 2003
  • Laatst online: 14:10
Ik heb in die systemlog van HP niets over blauwe schermen terug kunnen vinden... echter wel iets anders:

101 11/05/2007 21:42:00 Server power removed.
102 11/05/2007 21:42:00 Server power restored.
103 11/07/2007 15:59:00 Server reset.
104 11/07/2007 15:59:00 Server power restored.
105 11/08/2007 00:24:00 Server power removed.
106 11/08/2007 00:24:00 Server power restored.
107 11/24/2007 04:45:00 Server power removed.
108 11/24/2007 04:46:00 Server power restored.
109 12/07/2007 19:38:00 Server power removed.
110 12/07/2007 19:39:00 Server power restored.
111 12/12/2007 08:14:00 Server power removed.
112 12/12/2007 08:14:00 Server power restored.
113 12/12/2007 21:09:00 Server power removed.
114 Unknown Power restored to iLO 2.
115 12/12/2007 21:44:00 On-board clock set; was previously [NOT SET]
116 12/12/2007 22:35:00 Server power removed.
117 12/12/2007 22:36:00 Server power restored.
118 12/13/2007 04:06:00 Server power removed.
119 Unknown Power restored to iLO 2.
120 12/13/2007 04:24:00 On-board clock set; was previously [NOT SET]
121 12/13/2007 05:29:00 Server reset.
122 12/13/2007 05:29:00 Server power restored.
123 12/13/2007 12:27:00 Server power removed.
124 Unknown Power restored to iLO 2.
125 12/13/2007 12:36:00 On-board clock set; was previously [NOT SET]
126 12/13/2007 12:45:00 Server reset.
127 12/13/2007 12:45:00 Server power restored.
128 12/25/2007 06:24:00 Server power removed.
129 12/25/2007 06:25:00 Server power restored.
130 12/28/2007 10:02:00 Server reset.
131 12/28/2007 10:02:00 Server power restored.
132 02/05/2008 08:48:00 Server power removed.
133 02/05/2008 08:48:00 Server power restored.
134 02/11/2008 23:05:00 Server power removed.
135 02/11/2008 23:06:00 Server power restored.
136 02/19/2008 22:39:00 Server power removed.
137 02/19/2008 22:40:00 Server power restored.

Bijna alle datums komen op 1 dag verschil overeen met de reboot logs die in Windows werden bijgehouden.

Dit ook nog gevonden:
code:
1
2
3
4
5
6
Sensor Location Temperature Threshold Type 
 1 Ambient 24 C 40 C Caution 
 2 Memory 59 C 110 C Caution 
 3 CPU 30 C 100 C Critical 
 4 CPU 30 C 100 C Critical 
 5 IO Board 41 C 63 C Caution

IO Board zit momenteel op 41 graden en bij 63 graden zou hij een Shutdown gaan krijgen. Stel er is een process wat rond 19:00 gaat draaien wat zoveel IO power nodig heeft waardoor die chip te heet word waardoor de server shut-downed, zou dat misschien een verklaring kunnen zijn. De vraag is alleen: Wat zou er draaien op dat tijdstip, en waarom word er in de HP management tools niet weggeschreven dat de temperatuur de oorzaak zou zijn (als dat al het geval zou zijn...).

[ Voor 15% gewijzigd door Sluuut op 22-02-2008 15:06 ]

57696520646974206c65657374206973206e657264


  • SpamLame
  • Registratie: Augustus 2000
  • Laatst online: 11:00

SpamLame

niks

Kabel(s) die niet goed vast zit of slecht contact? Als er 1 dag verschil zou je datum setting van de ILO fout zijn.

  • SpamLame
  • Registratie: Augustus 2000
  • Laatst online: 11:00

SpamLame

niks

Sluuut schreef op vrijdag 22 februari 2008 @ 15:02:
Ik heb in die systemlog van HP niets over blauwe schermen terug kunnen vinden... echter wel iets anders:


Dit ook nog gevonden:
code:
1
2
3
4
5
6
Sensor Location Temperature Threshold Type 
 1 Ambient 24 C 40 C Caution 
 2 Memory 59 C 110 C Caution 
 3 CPU 30 C 100 C Critical 
 4 CPU 30 C 100 C Critical 
 5 IO Board 41 C 63 C Caution

IO Board zit momenteel op 41 graden en bij 63 graden zou hij een Shutdown gaan krijgen. Stel er is een process wat rond 19:00 gaat draaien wat zoveel IO power nodig heeft waardoor die chip te heet word waardoor de server shut-downed, zou dat misschien een verklaring kunnen zijn. De vraag is alleen: Wat zou er draaien op dat tijdstip, en waarom word er in de HP management tools niet weggeschreven dat de temperatuur de oorzaak zou zijn (als dat al het geval zou zijn...).
Wat er draait weet alleen jij of een andere beheerder.
Denk aan batches dumps van db's backups etc.
Dat het niet weggeschreven wordt is dan hoogst waarschijnlijk om dat de shutdown eerder komt dan er gelogd wordt.
Pagina: 1