Sinds enige tijd heb ik een Hyper-V cluster draaien (Windows 2008R2) en om een of andere reden raakt het cluster zijn quorum kwijt wanneer dat niet verwacht wordt.
De situatie:
Netwerk
Office netwerk - 2x Cisco 3750 gekoppeld middels stack kabel
iSCSI netwerk 1 - Dell switch, jumbo packets enabled
iSCSI netwerk 2 - Dell switch, jumbo packets enabled
Servers
Server1: HP DL380G7 gekoppeld met 2 netwerkkabels aan het Office netwerk (HP Network Team) en 1 kabel naar beide iSCSI netwerken
Server2: HP DL380G7 gekoppeld met 2 netwerkkabels aan het Office netwerk (HP Network Team) en 1 kabel naar beide iSCSI netwerken
Server3: HP DL360G5 gekoppeld met 2 netwerkkabels aan het Office netwerk (HP Network Team) en 1 kabel naar beide iSCSI netwerken
Storage: P2000g3 gekoppeld met 2 netwerkkabels naar Office netwerk (geen team, slechts beheerinterface) en 1 kabel naar beide iSCSI netwerken
Omschrijving
Op de iSCSI netwerken is geen cluster communicatie toegestaan. Dit is wel toegestaan op het Office netwerk. Cluster Validation is gerund en geeft geen noemenswaardige fouten (enkel wat Windows Updates). Cluster draait in Node Majority Quorum.
Wat gaat er mis:
Als ik Server1 of Server2 uit het cluster haal door hem op pause te zetten en vervolgens te rebooten (uiteraard is die server leeg qua resources) dan verliest het cluster het quorum op het moment dat de server de cluster service stopt. Cluster stort in en pas als Server1 of Server2 terug is gaan we weer draaien. Wel opvallend is dat als Server2 bijvoorbeeld reboot dat dan op Server1 de Cluster Service stopt maar op Server3 gewoon blijft draaien.
Als ik Server3 reboot dan blijft het cluster wel draaien, maar op het moment dat Server3 dan terugkomt in het cluster dan gaat of op Server1 of op Server2 (geen regelmaat in kunnen ontdekken) even op rood (cluster service stopt dus), maar hij komt snel weer terug en alles draait door. Resources worden wel gemoved naar de server die niet op rood ging (maar niet naar de gereboote Server3).
Hopelijk is het een beetje duidelijk zo. Mijn gevoel zegt dat ik ergens iets vergeten ben goed te zetten, maar ik kan niet vinden waar dat zou moeten zijn. Het enige manco (en fout) die ik me kan voorstellen is het feit dat ik niet een apart live migration en cluster communication netwerk heb. Ik heb echter geen bandbreedte problemen zover ik kan beoordelen en ook hoeft er geen live migration plaats te vinden op het moment dat er 1 van de 3 nodes weg valt, dat zou dus geen hoge belasting mogen opleveren.
Tl;DR: HEEELP
De situatie:
Netwerk
Office netwerk - 2x Cisco 3750 gekoppeld middels stack kabel
iSCSI netwerk 1 - Dell switch, jumbo packets enabled
iSCSI netwerk 2 - Dell switch, jumbo packets enabled
Servers
Server1: HP DL380G7 gekoppeld met 2 netwerkkabels aan het Office netwerk (HP Network Team) en 1 kabel naar beide iSCSI netwerken
Server2: HP DL380G7 gekoppeld met 2 netwerkkabels aan het Office netwerk (HP Network Team) en 1 kabel naar beide iSCSI netwerken
Server3: HP DL360G5 gekoppeld met 2 netwerkkabels aan het Office netwerk (HP Network Team) en 1 kabel naar beide iSCSI netwerken
Storage: P2000g3 gekoppeld met 2 netwerkkabels naar Office netwerk (geen team, slechts beheerinterface) en 1 kabel naar beide iSCSI netwerken
Omschrijving
Op de iSCSI netwerken is geen cluster communicatie toegestaan. Dit is wel toegestaan op het Office netwerk. Cluster Validation is gerund en geeft geen noemenswaardige fouten (enkel wat Windows Updates). Cluster draait in Node Majority Quorum.
Wat gaat er mis:
Als ik Server1 of Server2 uit het cluster haal door hem op pause te zetten en vervolgens te rebooten (uiteraard is die server leeg qua resources) dan verliest het cluster het quorum op het moment dat de server de cluster service stopt. Cluster stort in en pas als Server1 of Server2 terug is gaan we weer draaien. Wel opvallend is dat als Server2 bijvoorbeeld reboot dat dan op Server1 de Cluster Service stopt maar op Server3 gewoon blijft draaien.
Als ik Server3 reboot dan blijft het cluster wel draaien, maar op het moment dat Server3 dan terugkomt in het cluster dan gaat of op Server1 of op Server2 (geen regelmaat in kunnen ontdekken) even op rood (cluster service stopt dus), maar hij komt snel weer terug en alles draait door. Resources worden wel gemoved naar de server die niet op rood ging (maar niet naar de gereboote Server3).
Hopelijk is het een beetje duidelijk zo. Mijn gevoel zegt dat ik ergens iets vergeten ben goed te zetten, maar ik kan niet vinden waar dat zou moeten zijn. Het enige manco (en fout) die ik me kan voorstellen is het feit dat ik niet een apart live migration en cluster communication netwerk heb. Ik heb echter geen bandbreedte problemen zover ik kan beoordelen en ook hoeft er geen live migration plaats te vinden op het moment dat er 1 van de 3 nodes weg valt, dat zou dus geen hoge belasting mogen opleveren.
Tl;DR: HEEELP
[ Voor 5% gewijzigd door Verwijderd op 20-01-2013 12:39 ]