Ik heb een raar probleem met een dedicated server, namelijk dat hij vannacht een plotse shutdown deed.
Bij het nakijken van de logfiles kwam ik dit tegen:
messages:Nov 30 01:34:54 hard shutdown[10219]: shutting down for system halt
In de logs staat voor de shutdown niks over bijv ACPI events met oververhitte CPU's, segfaults, kernel panics of wat dan ook, echt uit het niets komt die shutdown er in. Er was op dat tijdstip ook niemand ingelogged dus dat was het ook niet.
Voor de zekerheid heb ik ook tiger en rkhunter gedraaid om te kijken of er niemand ongewenst toegang had verkregen tot de server, maar hier kwam niks raars uit naar voren (en stel dat was wel het geval, waarom zou je dan in godsnaam een shutdown erin gooien).
We hebben dit vorige week ook al een keer gehad, toen om half 8 's ochtends. Beide tijdstippen wordt de website die op de server draait zo goed als niet bezocht.
Vannacht draaiden er wel (toevallig?) een paar zware crons toen de server de shutdown deed, maar omdat deze zwaar zijn om uit te voeren had ik die met nice al een lagere prio gegeven (dus hogere niceness, namelijk 15). Deze crons draaien elke nacht zonder problemen, dus ik gok niet dat deze opeens wel de server zo zwaar belasten dat deze een shutdown moet doen.
Server info:
HP Proliant (kan het exacte model niet zo 123 terugvinden)
Quadcore Intel Xeon X3210 (niet overgeklokt oid)
8GB RAM
2x 500gb SATA disks op 82801IR/IO/IH controller, niet in raid
Op de server (Debian 6.0) draait enkel een Magento webshop, en wordt e-mail afgehandeld.
Al het webverkeer wordt afgehandeld door nginx 0.7.67 icm met php 5.3.3 in fastcgi mode.
Wat ik al heb gedaan:
Bij het nakijken van de logfiles kwam ik dit tegen:
messages:Nov 30 01:34:54 hard shutdown[10219]: shutting down for system halt
In de logs staat voor de shutdown niks over bijv ACPI events met oververhitte CPU's, segfaults, kernel panics of wat dan ook, echt uit het niets komt die shutdown er in. Er was op dat tijdstip ook niemand ingelogged dus dat was het ook niet.
Voor de zekerheid heb ik ook tiger en rkhunter gedraaid om te kijken of er niemand ongewenst toegang had verkregen tot de server, maar hier kwam niks raars uit naar voren (en stel dat was wel het geval, waarom zou je dan in godsnaam een shutdown erin gooien).
We hebben dit vorige week ook al een keer gehad, toen om half 8 's ochtends. Beide tijdstippen wordt de website die op de server draait zo goed als niet bezocht.
Vannacht draaiden er wel (toevallig?) een paar zware crons toen de server de shutdown deed, maar omdat deze zwaar zijn om uit te voeren had ik die met nice al een lagere prio gegeven (dus hogere niceness, namelijk 15). Deze crons draaien elke nacht zonder problemen, dus ik gok niet dat deze opeens wel de server zo zwaar belasten dat deze een shutdown moet doen.
Server info:
HP Proliant (kan het exacte model niet zo 123 terugvinden)
Quadcore Intel Xeon X3210 (niet overgeklokt oid)
8GB RAM
2x 500gb SATA disks op 82801IR/IO/IH controller, niet in raid
Op de server (Debian 6.0) draait enkel een Magento webshop, en wordt e-mail afgehandeld.
Al het webverkeer wordt afgehandeld door nginx 0.7.67 icm met php 5.3.3 in fastcgi mode.
Wat ik al heb gedaan:
- Google afgespeurd naar soortgelijke scenario's. Hierbij kwamen vaak rotte drivers naar voren voor SATA controllers of videokaarten, maar al deze drivers worden niet op de server gebruikt. Andere gevallen hadden te maken met ACPI, maar ik kom nergens ACPI events in de logs tegen
- Alle software updates uitgevoerd, incl kernel updates.
- Logbestanden zitten bekijken tot ik er scheel van keek.