ms cluster service fail-over tijd - Serversoftware en clouddiensten

zondag 18 mei 2003 20:36

Acties:

Verwijderd

Topicstarter

Ik zit met het volgende probleem;
Ik ben bezig een cluster te bouwen met win2k advanced server/microsoft cluster service.
Ik heb 2 servers, identiek aan configuratie, daar tussenin een icp vortex scsi director, en een adaptec durastor met een raid 5 configuratie als shared storage.
M'n cluster service is up and running, ik heb alleen ms sql geinstalleerd.
Echter, de ' fail-over' tijd is exact 45 seconden, terwijl ik dit wil reduceren naar <20 sec.
Heeft iemand een idee waar ik het moet zoeken, ik heb al van alles gelezen, geprobeerd, maar tot nu toe nog geen resultaat.

zondag 18 mei 2003 20:42

Acties:

elevator

Officieel moto fan :)

Waar zit je grootste probleem qua tijd? Voordat je resources als failed gedetecteerd worden, of voordat ze correct 'online' gebracht worden ?

zondag 18 mei 2003 20:49

Acties:

Verwijderd

Topicstarter

elevator schreef op 18 May 2003 @ 20:42:
Waar zit je grootste probleem qua tijd? Voordat je resources als failed gedetecteerd worden, of voordat ze correct 'online' gebracht worden ?

Wist ik het maar..
Ik dacht in eerste instantie dat het ging om die detectie, maar die tijd waardes heb ik omlaag gebracht dus verder geen enkel resultaat.
Het rare is dat je ziet dat als node a down gaat, pas na 30 sec op node b sql en een generic app (had ik later voor test toegevoegd) gaan starten. Dit totale starten kost 15 sec(wat dus acceptabel zou zijn als hij hier gelijk mee zou beginnen bij down detectie op de heartbeat interface)

zondag 18 mei 2003 20:52

Acties:

Brahiewahiewa

boelkloedig

Als je op de ene node de SQL services off-line brengt, de fail-over doet en daarna op de andere node de SQL services weer on-line brent, hoe lang duurt 't dan in totaal?
Als dit beduidend korter is, bestaat er een kans dat je fail-over mislukt en een paar keer heen en weer bounced tussen beide nodes, voordat-ie opkomt.

QnJhaGlld2FoaWV3YQ==

zondag 18 mei 2003 20:56

Acties:

Verwijderd

Topicstarter

Brahiewahiewa schreef op 18 May 2003 @ 20:52:
Als je op de ene node de SQL services off-line brengt, de fail-over doet en daarna op de andere node de SQL services weer on-line brent, hoe lang duurt 't dan in totaal?
Als dit beduidend korter is, bestaat er een kans dat je fail-over mislukt en een paar keer heen en weer bounced tussen beide nodes, voordat-ie opkomt.

dat is niet mogelijk, of alleen node a, of alleen node b kan de scsi director en de shared storage benaderen.

zondag 18 mei 2003 21:02

Acties:

elevator

Officieel moto fan :)

Verwijderd schreef op 18 May 2003 @ 20:56:
[...]

dat is niet mogelijk, of alleen node a, of alleen node b kan de scsi director en de shared storage benaderen.

Wat Bra* bedoelt is dat je eens manueel je failover moet nadoen.

Probeer op je cluster groep (je zegt dat het maar op 1 node tegelijkertijd kan, dus heb je maar 1 cluster groep) eens je resources offline te brengen. Doe vervolgens een "Move group", en breng daarna je resources eens terug op.

Welk gedeelte hiervan duurt het langst?

[ Voor 44% gewijzigd door elevator op 18-05-2003 21:04 . Reden: verrotte Firebird :| ]

zondag 18 mei 2003 21:04

Acties:

Verwijderd

Topicstarter

elevator schreef op 18 May 2003 @ 21:02:
[...]

Wat Bra* bedoelt is dat je eens manueel je failover moet nadoen.

Probeer op je cluster groep (je zegt dat het maar op 1 node tegelijkertijd kan, dus heb je maar 1 cluster groep) eens je resources offline te brengen. Doe vervolgens een "Move group", en breng daarna je resources eens terug op.

Welk gedeelte hiervan duurt het langst?

ok, manuele overschakeling. Ik zal dit morgen even testen de configuratie staat op kantoor.

zondag 18 mei 2003 21:14

Acties:

Brahiewahiewa

boelkloedig

Verwijderd schreef op 18 May 2003 @ 20:56:
[...]dat is niet mogelijk, of alleen node a, of alleen node b kan de scsi director en de shared storage benaderen.

Terzijde: heb je maar één resource group aangemaakt? 't Idee van een cluster is dat je meerdere resource groups hebt (met elk minstens 1 fysieke disk). Dus een Cluster group met je quorum disk, een SQL group met je SQL services en MSDTC. Eventueel kun je zo meer resource groups aanmaken (file en/of printer server, desnoods exchange).
Overigens gaat 't alleen kunnen als je "icp vortex scsi director" meerdere LUN's ondersteunt.

QnJhaGlld2FoaWV3YQ==

zondag 18 mei 2003 21:34

Acties:

elevator

Officieel moto fan :)

Brahiewahiewa schreef op 18 May 2003 @ 21:14:
Terzijde: heb je maar één resource group aangemaakt? 't Idee van een cluster is dat je meerdere resource groups hebt (met elk minstens 1 fysieke disk).

Zijn setup is een standaard active/passive setup. Ik zou er zelf niet voor kiezen (te duur), maar het is een mogelijkheid.

zondag 18 mei 2003 22:36

Acties:

ZeRoC00L

?

elevator schreef op 18 May 2003 @ 21:34:
[...]

Zijn setup is een standaard active/passive setup. Ik zou er zelf niet voor kiezen (te duur), maar het is een mogelijkheid.

Inderdaad, extra resource-groups zijn in dit geval niet nodig omdat slechts 1 resource, SQL, geclusterd is.
==

Het lijkt me trouwens niet dat je de fail-over tijd kunt verkorten, het systeem moet natuurlijk eerst de services stoppen op de ene node, en daarna weer starten op de andere. (dit zal trouwens wat langer gaan duren naarmate je DB groter wordt).

[*] Error 45: Please replace user
Volg je bankbiljetten

zondag 18 mei 2003 23:11

Acties:

Verwijderd

Topicstarter

ZeRoC00L schreef op 18 May 2003 @ 22:36:
[...]

Inderdaad, extra resource-groups zijn in dit geval niet nodig omdat slechts 1 resource, SQL, geclusterd is.
==

Het lijkt me trouwens niet dat je de fail-over tijd kunt verkorten, het systeem moet natuurlijk eerst de services stoppen op de ene node, en daarna weer starten op de andere. (dit zal trouwens wat langer gaan duren naarmate je DB groter wordt).

Dat vind ik dus een beetje vreemd. Hoezo resources stoppen als het systeem keihard plat ligt ( ik trek bij de test letterlijk de voeding er uit). Ik wil het eigenlijk zo hebben dat als de heartbeat interface down is de 2e (passive) machine zichzelf gelijk activeerd.

zondag 18 mei 2003 23:56

Acties:

Guru Evi

Moet Windows dan je services nog starten? Is het daar niet beetje te laat voor al (zeker in een bedrijfsomgeving).
Mijn idee van een cluster is dat er 2 systemen zijn die up & running zijn en als de ene stilvalt, de andere de load gewoon overneemt van de andere.

Pandora FMS - Open Source Monitoring - pandorafms.org

maandag 19 mei 2003 01:49

Acties:

Brahiewahiewa

boelkloedig

Verwijderd schreef op 18 mei 2003 @ 23:11:
[...] ik trek bij de test letterlijk de voeding er uit

Daarmee vertouw je wel op het reparatie mechanisme van de databases: in een lab situatie werkt dat altijd; in produktie bijna altijd, alleen niet als je 't nodig hebt (Murphy)

Ik wil het eigenlijk zo hebben dat als de heartbeat interface down is de 2e (passive) machine zichzelf gelijk activeert.

Kun je wel willen, maar het enige wat je vast kunt stellen is dat er geen heartbeat signaal meer binnenkomt. Ligt dat aan de active of aan de passive node? Als je de passive node gewoon down brengt, komt er ook geen heartbeat meer binnen, maar je zou niet willen dat je klutser dan een fail-over gaat proberen.

Guru Evi schreef op 18 mei 2003 @ 23:56:
Moet Windows dan je services nog starten? Is het daar niet beetje te laat voor al (zeker in een bedrijfsomgeving).
Mijn idee van een cluster is dat er 2 systemen zijn die up & running zijn en als de ene stilvalt, de andere de load gewoon overneemt van de andere.

Dat heet een Active/Active klutser. Maar maak je niet ongerust: het starten van die services kost niet veel tijd (sub-second) maar het mounten van je databases des te meer

QnJhaGlld2FoaWV3YQ==

maandag 19 mei 2003 11:41

Acties:

ZeRoC00L

?

Brahiewahiewa schreef op 19 May 2003 @ 01:49:
Dat heet een Active/Active klutser. Maar maak je niet ongerust: het starten van die services kost niet veel tijd (sub-second) maar het mounten van je databases des te meer

De cluster-service draait inderdaad wel op beide servers, alleen dient SQL op de andere node gestart worden, en zeker in geval van een 'crash' zal dit langer duren, omdat SQL de dababase zal checken.

[*] Error 45: Please replace user
Volg je bankbiljetten