ESXi 4.1 - Zonder reden alle virtuele servers uit??

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
Ik ben aan het testen met de volgende setup:
  • HP DL385, 8-Core Opteron 6128, 28GB geheugen, 4GB Sandisk Ultra SD
  • Synology DS1511+
  • HP ProCurve 1810G - 24 GE
Op de DL385 staat ESXi 4.1 geinstalleerd
  • 1 van de netwerk poorten van de Synology is in een apart VLAN & Subnet aan een Dedicated NIC op de server gekoppeld voor iSCSI opslag.
  • 1 van de poorten is dedicated management interface
  • 2 poorten zijn getrunkt voor het reguliere netwerkverkeer
  • Er draaien diverse guests op de server waaronder:
    • Een Linux web/monitoring server (Ubuntu 10.04)
    • Een domaincontroller die verder nog niets doet (Server 2008 R2)
    • Een terminal server (Server 2008)
Dit draait al een paar dagen prima, ik ben langzamerhand wat taken van mijn oude servers aan het overdragen naar deze nieuwe setup.

Nu kom ik vanmorgen achter mijn PC, blijk dat alle 3 de servers "Powered of" zijn.

Ik kijk in de Events van de ESXi, de events beginnen daar gisterenavond 21:06
  • 21:06:14 User root@127.0.0.1 logged in
  • 21:06:14 User root logged out
  • 21:06:14 User root@127.0.0.1 logged in
Daarna gaan de events verder 8:00 vanmorgen toen ik inlogde om te kijken wat er aan de hand was. Ik heb toen de guests weer opgestart.

Wat heb ik verder gechecked
  • De logs van de UPS wijzen niets aan wat op stroomonderbrekingen OID wijst
  • De logs van de ILO op de DL385 geven niets aan wat op een herstart of onderbreking oid wijst
  • De logs van de Switch geven niets aan wat wijst op netwerkonderbrekingen oid
  • De logs van de Synology geven niets aan wat op onderbrekingen kan duiden
De grootste vraag die mij berust is, waar zijn de ESXi logs gebleven. hoe kan dit???? Heeft iemand een idee??

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • Broken
  • Registratie: Maart 2004
  • Laatst online: 09-09 13:11
Ik ben niet echt heel bekent met het systeem dat je gebruikt. Echter "lijkt" de rare root access wel een hint te zijn dat er mogelijk iemand binnen gedrongen is, helemaal in de combinatie met de missende logs.

Ik zou beginnen met een check te draaien om te zien of er iets aan de configuratie gewijzigd is.

01101000 01100101 01101100 01110000


Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
13rapsac schreef op vrijdag 26 augustus 2011 @ 10:07:
Ik ben niet echt heel bekent met het systeem dat je gebruikt. Echter "lijkt" de rare root access wel een hint te zijn dat er mogelijk iemand binnen gedrongen is, helemaal in de combinatie met de missende logs.

Ik zou beginnen met een check te draaien om te zien of er iets aan de configuratie gewijzigd is.
Daar zat ik ook al aan te denken, maar er zijn verder geen publieke poorten naar mijn server geforward.

Die root @ 127.0.0.1 is volgens vele forums normaal omdat een intern proces van VMware dat standaard doet.

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • ralpje
  • Registratie: November 2003
  • Laatst online: 14:12

ralpje

Deugpopje

Vreemd. Ik had gisteren hetzelfde probleem op een vSphere4 host. Alle VM's waren powered off, en aan de meldingen in m'n Windows-logs (en m'n brakke exchange-db) te zien niet netjes ook.
De andere 3 fysieke hosts in m'n cluster hadden geen problemen.

Freelance (Microsoft) Cloud Consultant & Microsoft Certified Trainer


Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
ralpje schreef op vrijdag 26 augustus 2011 @ 10:17:
Vreemd. Ik had gisteren hetzelfde probleem op een vSphere4 host. Alle VM's waren powered off, en aan de meldingen in m'n Windows-logs (en m'n brakke exchange-db) te zien niet netjes ook.
De andere 3 fysieke hosts in m'n cluster hadden geen problemen.
Toevallig ook om 21:00??? Ik sta echt voor een raadsel.

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • ralpje
  • Registratie: November 2003
  • Laatst online: 14:12

ralpje

Deugpopje

Nee, bij mij begonnen de problemen (eerste telefoontjes van klanten) rond een uur of half vijf, volgens mij.
Ik heb vervolgens niet zelf kunnen troubleshooten omdat ik in de auto zat, maar telefonisch m'n collega er doorheen gepraat.

Freelance (Microsoft) Cloud Consultant & Microsoft Certified Trainer


Acties:
  • 0 Henk 'm!

  • Meekoh
  • Registratie: April 2005
  • Laatst online: 16:34
ralpje schreef op vrijdag 26 augustus 2011 @ 10:20:
Nee, bij mij begonnen de problemen (eerste telefoontjes van klanten) rond een uur of half vijf, volgens mij.
Ik heb vervolgens niet zelf kunnen troubleshooten omdat ik in de auto zat, maar telefonisch m'n collega er doorheen gepraat.
Als ik het goed begrijp hebben jullie niet hetzelfde probleem.
Bij de TS gingen de fysieke machines uit en bij jou de VM's.
Heb wel vaker gezien dat VM's en masse uitgaan. Bij ons was er toen een probleem met de storage.
Daardoor zet ESX alle VM's uit.

Maar even voor de TS. Het is erg merkwaardig dat je server uitstaat zonder een melding hierover in de EML logs van ILO.

Computer says no


Acties:
  • 0 Henk 'm!

  • DukeBox
  • Registratie: April 2000
  • Laatst online: 16:52

DukeBox

loves wheat smoothies

Meekoh schreef op vrijdag 26 augustus 2011 @ 10:33:
Bij de TS gingen de fysieke machines uit en bij jou de VM's.
Volgens mij bedoelt TS met 'servers' ook de guests.

Duct tape can't fix stupid, but it can muffle the sound.


Acties:
  • 0 Henk 'm!

  • Meekoh
  • Registratie: April 2005
  • Laatst online: 16:34
DukeBox schreef op vrijdag 26 augustus 2011 @ 12:15:
[...]

Volgens mij bedoelt TS met 'servers' ook de guests.
Dat lijkt mij logisch, als al je fysieke servers uit staan dan zijn je vm's natuurlijk ook uit ;)

Computer says no


Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
Ik bedoelde dus wel de Guests. De Fysieke server stond nog gewoon aan en was benaderbaar.

Het vreemde vind ik dus dat er in de logs niet iets staat van: "Probleem met storage, ik ga de servers uitzetten".

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • ik222
  • Registratie: Maart 2007
  • Niet online
Ik heb dit een tijdje terug ook gehad VMWare ESXi zet alle VM's uit

Daar is alleen ook geen reactie op gekomen en ook via google heb ik niets kunnen vinden. Alleen dat die root logins blijkbaar vaker voorkomen en niet abnormaal zijn. Ik heb overigens het probleem sindsdien nooit meer gehad.

Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
Hmm, stom, die heb ik niet gevonden maar lijkt idd precies hetzelfde probleem.

Met wat voor een storage werk jij?

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • ik222
  • Registratie: Maart 2007
  • Niet online
Dit was toen nog met twee interne sata schijven met vmfs3 bestandssysteem.

Nog een overeenkomst is trouwens dat ook bij mij ESXi toen pas een dag of 5 draaide...

[ Voor 42% gewijzigd door ik222 op 26-08-2011 13:41 ]


Acties:
  • 0 Henk 'm!

  • ralpje
  • Registratie: November 2003
  • Laatst online: 14:12

ralpje

Deugpopje

Bij mij draait vSphere (geen i, de 'volledige' versie) al veul langer, en het is de eerste keer dat het gebeurt. Een probleem met de storage kan het niet zijn, want m'n andere machines hadden geen probleem terwijl die dezelfde storage gebruiken. Interne storage wordt alleen gebruikt voor de esx-installatie.

Freelance (Microsoft) Cloud Consultant & Microsoft Certified Trainer


Acties:
  • 0 Henk 'm!

  • ik222
  • Registratie: Maart 2007
  • Niet online
Bij mij is het daarna ook nooit meer gebeurd, inmiddels draait de ESXi host al 4 maanden non stop en zonder problemen. Het blijft alleen wel vreemd en ik heb nooit de reden kunnen vinden.

Maar de VM's (alle ubuntu 10.04) gingen toen ook gewoon in één keer keihard uit hier, in hun logs was nergens wat terug te vinden van een shutdown.

Acties:
  • 0 Henk 'm!

  • Staatslot
  • Registratie: December 2007
  • Laatst online: 02-09 09:58
Dit klinkt (bij beiden trouwens) niet erg geruststellend, ik pieker me suf maar ik kan ook niet bedenken wat het nog meer geweest zou kunnen zijn. Ik dacht nog aan een intruder signaal van het moederbord als de case opent? Maar ik neem aan dat zeker zakelijk niemand echt bij de server kan??

Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
Staatslot schreef op vrijdag 26 augustus 2011 @ 13:58:
Dit klinkt (bij beiden trouwens) niet erg geruststellend, ik pieker me suf maar ik kan ook niet bedenken wat het nog meer geweest zou kunnen zijn. Ik dacht nog aan een intruder signaal van het moederbord als de case opent? Maar ik neem aan dat zeker zakelijk niemand echt bij de server kan??
Nou, in mijn geval is het zeer klein zakelijk en kan ik zelf wel bij de server, maar verder was er niemand aanwezig in het gebouw, dus iets fysieks zal het niet geweest zijn. Daarnaast had er dan ook een log van in de ILO moeten staan.

/Piekert zich ook suf....

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • LinuX-TUX
  • Registratie: December 2003
  • Laatst online: 13:33
Om uit te sluiten dat de Host onderuit is geweest (reboot). Wat is de uptime van de ESXi server zelf?


@Hieronder:
Automatisch opkomen van guest os's moet je configureren. Daarbij kan ik me voorstellen dat bij een niet nette shutdown/reboot van een guest dan wel ESXi zelf, er een stop op wordt gezet op automatisch bootende guests.

[ Voor 54% gewijzigd door LinuX-TUX op 26-08-2011 14:28 ]


Acties:
  • 0 Henk 'm!

  • Staatslot
  • Registratie: December 2007
  • Laatst online: 02-09 09:58
Dat zou kunnen, ik ging er een beetje vanuit dat de vm's bij startup ook automatisch mee aan zouden gaan..
Als dat niet het geval is, is waarschijnlijk de hele bak uitgevallen en opnieuw gestart..
Problemen met voeding wellicht? Of een defecte schijf die een piekspanning vroeg, machine uitsloeg en weer aan is gegaan?

Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
Ik heb net bij de performance Charts "Uptime" toegevoegd.
Deze staat op maximum 0,73 Days. Ik kan bij de chart options ook alleen maar "Real-time" kiezen.

Ik heb nog een keer in de ILO gekeken, heb waarschijnlijk de logs niet goed bekeken, want:
code:
1
2
3
4
5
6
7
8
9
10
11
iLO 3 
08/25/2011 19:03
08/25/2011 19:03
1
Server power restored.

iLO 3
08/25/2011 19:03
08/25/2011 19:03
1
Server reset.


De tijd komt alleen niet overeen, omdat de tijd in mijn ILO niet goed staat. Dan vraag ik me alleen nog af waarom de stroom eraf is geknikkert, ik heb er gewoon een UPS tussen hangen.

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • LinuX-TUX
  • Registratie: December 2003
  • Laatst online: 13:33
RRX schreef op vrijdag 26 augustus 2011 @ 14:47:
Ik heb net bij de performance Charts "Uptime" toegevoegd.
Deze staat op maximum 0,73 Days. Ik kan bij de chart options ook alleen maar "Real-time" kiezen.

Ik heb nog een keer in de ILO gekeken, heb waarschijnlijk de logs niet goed bekeken, want:
code:
1
2
3
4
5
6
7
8
9
10
11
iLO 3 
08/25/2011 19:03
08/25/2011 19:03
1
Server power restored.

iLO 3
08/25/2011 19:03
08/25/2011 19:03
1
Server reset.


De tijd komt alleen niet overeen, omdat de tijd in mijn ILO niet goed staat. Dan vraag ik me alleen nog af waarom de stroom eraf is geknikkert, ik heb er gewoon een UPS tussen hangen.
Toch even de logs induiken. var log messages & dmesg. Weet niet of die iLo berichten de status van de machine weergeven (wat deze aan het doen is) of de status van echt de voeding zelf. Ben wel benieuwd. Als het echt van de voeding is ipv wat de machine aan het doen is, dan is het tijd om je UPS eens na te kijken :Y)

Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
De switch die op dezelfde UPS is aangesloten heeft in ieder geval een uptime van 3 dagen:

System Up Time 3 days, 0 hours, 21 mins, 24 secs

Sinds ik de boel daar heb geplaatst.

De Smart-UPS SC1000 geeft voor de afgelopen 24 uur ook een stabiele stroomlijn aan en geen power-events.

Ik heb een interessante thread gevonden op internet:
http://arstechnica.com/civis/viewtopic.php?f=21&t=77406

Het lijkt er op dat bepaalde geheugenconfiguraties in de DL 385 dit kunnen veroorzaken. Nou heb ik toevallig 2 stukjes RAM erin zitten waarvan ik twijfelde of die zouden werken omdat het 2 verschillende merken zijn (wel door HP geleverd, maar andere Batch denk ik). Ik kijk het even aan, anders zal ik die er eens uithalen.

Bedankt voor de tips in ieder geval _/-\o_

Hier ook nog een mogelijke oorzaak/oplossing:

http://forums.whirlpool.net.au/archive/1403892
I've found two working fixes -

1) don't install any ilo management driver !
2) set Ilo to high power static mode under the power> settings.

They've buggered something up royally. I got the problem when a new redundant power supply was delivered and HP insisted I update all firmware, this introduced the bug into what were healthy machines up to that point. It went unnoticed for weeks but then blew up when noticed!

[ Voor 95% gewijzigd door RRX op 26-08-2011 15:27 ]

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • webgangster
  • Registratie: Juli 2006
  • Laatst online: 10:52
Misschien (naja, weet het wel zeker) is het handig dat je instelt dat je machines automatisch weer starten.

Acties:
  • 0 Henk 'm!

  • DukeBox
  • Registratie: April 2000
  • Laatst online: 16:52

DukeBox

loves wheat smoothies

Hoe dan ook alles op write through zetten om evt. dataloss te beperken.

Duct tape can't fix stupid, but it can muffle the sound.


Acties:
  • 0 Henk 'm!

  • RRX
  • Registratie: Mei 2000
  • Laatst online: 29-05 15:34

RRX

@life-

Topicstarter
@webgangster
Had ik ondertussen inderdaad ingesteld ja :)

@DukeBox
Inderdaad wel een handige tip.

Hoe kan ik trouwens zorgen dat de logs na een reboot van de host niet verdwijnen??

mijn T.net systeemspecspagina


Acties:
  • 0 Henk 'm!

  • lazybones
  • Registratie: December 2001
  • Laatst online: 11-09 00:02
Zelf recentelijk ook gehad. De oorzaak volgens HP kan liggen aan een UPS. Exemplaren van 1500VA of minder hebben soms een signaalvorm die niet goed genoeg is waardoor de power supply in de server eventjes een hik krijgt, met een reset tot gevolg. Schijnt een bekend issue te zijn. Als je server is voorzien van twee voedingen, waarvan er één aan zo'n UPS hangt, dan zou je er geen last van moeten hebben, aangezien de andere voeding dit naadloos opvangt.
Pagina: 1