Hallo,
Binnen de organisatie waar ik werk is sinds een poos een volledig nieuwe omgeving opgezet welke volledig redundant is (maw er zijn meerdere vestigingen landelijk maar 2 hebben een datacenter waarbij de omgeving realtime wordt gemirrored dmv een dedicated synchronisatie lijn).
Nu weet ik zelf niet alle fijne details, daar ik een proces engineer / applicatie beheerder ben en geen systeembeheerder maar ik zal proberen om de situatie zo goed mogelijk te schetsen:
Beide datacenters bestaan uit een ESX cluster met ongeveer 8 x HP DL380 G6's (ik denk 2 hexa-cores en rond de 100GB RAM per machine) en een recent geplaatste IBM Storwize V7000 SAN met (als ik mij niet vergis) oa. een 10 of 12 SSD diskset voor hot data caching welke goed zou zijn voor rond de 180.000 IOPS of iets dergelijks.
Bottom line waar ik een beetje naar toe wil, is dat de performance echt zwaar ondermaats lijkt te zijn.
Op het actieve cluster draaien naar schatting zo'n 400 VM's waarvan ongeveer 350 Windows werkplekken zijn. De rest applicatie servers en een database server.
In het dagelijks gebruik merkt eigenlijk iedereen (en opvallend genoeg, met name de mirror vestiging) dat de prestaties van de Windows werkplekken werkelijk waar ruk is.
Het voelt een beetje aan als een remote desktop sessie naar een oud P4tje met een versleten HDD en zo voor iedere gebruiker. Responsiviteit is ver te zoeken en multitasken gaat zeer moeizaam.
Aangezien hetgeen mij allemaal wel interesseert (voorheen heb ik ook hardware engineering / systeembeheer gedaan maar op wat kleinere schaal) ben ik dus eigenlijk dit topic gestart.
Onze IT diensverlening heeft na lang onderzoeken eigenlijk uit kunnen sluiten dat de performance niet slecht is vanwege het feit dat de werkplekken zich off-site bevinden (maw dat er een internetverbinding tussen zit). De kwaliteit/bandbreedte van deze lijn zou ruimschoots voldoende zijn.
Dit doet mij dus een aantal dingen denken:
- Zou het SAN uberhaupt enige vorm van prioritisering kennen vwb de disk workload (I/O usage)?
De impact op het hele cluster is bijvoorbeeld gruwelijk wanneer de database server (VM) onder zware load komt te staan.
- Zou de inrichting dan wel hoge prioritisering van de synchronisatie verbinding tussen beide SANs ervoor kunnen zorgen dat de performance enkel op de gemirrorde site altijd slecht is?
(Het zou hier gaan om een aparte mirroring line tov het overige dataverkeer, wat zou vermoeden dat het wederom de SAN is welke staat te zweten/klapperen of niet optimaal werkt?).
- Bij aanhoudende slechte performance van virtuele machines...is dit op enige manier objectief te meten/benchmarken? Ik heb zelf sterk het gevoel dat de snelheid van de werkplekken te wijten is aan de performance van het gehele SAN+Cluster in plaats van dat de ontvangende zijde hier een rol in speelt.
Wellicht geef ik veel te weinig informatie... ik weet het niet.
Maar alle aangeschafte hardware zou zijn geïnventariseerd op 100% headroom (in verband met toekomstige groei van de organisatie) en toch is de performance zwaar ondermaats.
Ik vraag me dus gewoon heel erg af of hier mensen zijn die gelijkwaardige ervaringen hebben gehad en/of weten waar vaak de oorzaak ligt dan wel, waar constructief te beginnen met zoeken?
Binnen de organisatie waar ik werk is sinds een poos een volledig nieuwe omgeving opgezet welke volledig redundant is (maw er zijn meerdere vestigingen landelijk maar 2 hebben een datacenter waarbij de omgeving realtime wordt gemirrored dmv een dedicated synchronisatie lijn).
Nu weet ik zelf niet alle fijne details, daar ik een proces engineer / applicatie beheerder ben en geen systeembeheerder maar ik zal proberen om de situatie zo goed mogelijk te schetsen:
Beide datacenters bestaan uit een ESX cluster met ongeveer 8 x HP DL380 G6's (ik denk 2 hexa-cores en rond de 100GB RAM per machine) en een recent geplaatste IBM Storwize V7000 SAN met (als ik mij niet vergis) oa. een 10 of 12 SSD diskset voor hot data caching welke goed zou zijn voor rond de 180.000 IOPS of iets dergelijks.
Bottom line waar ik een beetje naar toe wil, is dat de performance echt zwaar ondermaats lijkt te zijn.
Op het actieve cluster draaien naar schatting zo'n 400 VM's waarvan ongeveer 350 Windows werkplekken zijn. De rest applicatie servers en een database server.
In het dagelijks gebruik merkt eigenlijk iedereen (en opvallend genoeg, met name de mirror vestiging) dat de prestaties van de Windows werkplekken werkelijk waar ruk is.
Het voelt een beetje aan als een remote desktop sessie naar een oud P4tje met een versleten HDD en zo voor iedere gebruiker. Responsiviteit is ver te zoeken en multitasken gaat zeer moeizaam.
Aangezien hetgeen mij allemaal wel interesseert (voorheen heb ik ook hardware engineering / systeembeheer gedaan maar op wat kleinere schaal) ben ik dus eigenlijk dit topic gestart.
Onze IT diensverlening heeft na lang onderzoeken eigenlijk uit kunnen sluiten dat de performance niet slecht is vanwege het feit dat de werkplekken zich off-site bevinden (maw dat er een internetverbinding tussen zit). De kwaliteit/bandbreedte van deze lijn zou ruimschoots voldoende zijn.
Dit doet mij dus een aantal dingen denken:
- Zou het SAN uberhaupt enige vorm van prioritisering kennen vwb de disk workload (I/O usage)?
De impact op het hele cluster is bijvoorbeeld gruwelijk wanneer de database server (VM) onder zware load komt te staan.
- Zou de inrichting dan wel hoge prioritisering van de synchronisatie verbinding tussen beide SANs ervoor kunnen zorgen dat de performance enkel op de gemirrorde site altijd slecht is?
(Het zou hier gaan om een aparte mirroring line tov het overige dataverkeer, wat zou vermoeden dat het wederom de SAN is welke staat te zweten/klapperen of niet optimaal werkt?).
- Bij aanhoudende slechte performance van virtuele machines...is dit op enige manier objectief te meten/benchmarken? Ik heb zelf sterk het gevoel dat de snelheid van de werkplekken te wijten is aan de performance van het gehele SAN+Cluster in plaats van dat de ontvangende zijde hier een rol in speelt.
Wellicht geef ik veel te weinig informatie... ik weet het niet.
Maar alle aangeschafte hardware zou zijn geïnventariseerd op 100% headroom (in verband met toekomstige groei van de organisatie) en toch is de performance zwaar ondermaats.
Ik vraag me dus gewoon heel erg af of hier mensen zijn die gelijkwaardige ervaringen hebben gehad en/of weten waar vaak de oorzaak ligt dan wel, waar constructief te beginnen met zoeken?
Inventory | Instagram: @sequenzpounder | http://www.zdaemon.org | ZDaemon! Client/Server port for DOOM!