Storage performance problemen vmware ESXi 4.1/5.0

zondag 13 november 2011 21:43

Acties:

Topicstarter

Ik ben aan het testen met ESXi op een HP DL380G5 (met 8x 146G@10K rpm Sas discs aan een P400 raid controller, 32GB ram, 2x 2core Xeon@3.0 GHz) en loop tegen een nogal raar probleem aan:
totaal dramatisch slechte performance als er meerdere VMs worden gedefinieerd.
Getest met alle discs zowel in raid 5 als raid 0+1, met esxi 5.0.

Je kan in vsphere de diverse clients een gereserveerde hoeveelheid CPU power en RAM toewijzen, en je kan je storage thin of thick provisionen, (ik ben begonnen met alles thin), maar in het tabje storage kan je geen minimum en maximum aangeven, slechts een hoeveelheid shares.
En nou komt het probleem.
Als ik er een VM op definieer krijgt die alle storage performance. Mooi. Wel jammer dat die performance nogal laag is, hdparm rapporteert iets van rond de 50MB/s, maar ok.
(ubuntu 10.04 vanilla installatie)
Als ik er echter, om diverse dingen op te testen, nog 9 VMs bij aan maak, en die niet aan zet (zelfs niets op installeer!) dan krijgen ze allemaal de zelfde hoeveelheid shares, dus ieder 10% van de storage performance.
Dan rapporteerd hdparm in die eerste VM een schokkende 5MB/s. Hell, pen en papier is bijna even snel.
Wat ik verwachtte is dat je een reservering kan aangeven, net als bij CPU, en dat wat over is gebruikt wordt door die VM die het nodig heeft.
Ik kan natuurlijk een grotere share geven aan een VM die dat nodig heeft, of VMs weggooien die ik niet gebruik, maar dat is natuurlijk niet het punt. Ik wil dit liever niet micromanagen, en vind het ook nogal raar dat 99% van de tijd en groot gedeelte van de capaciteit van de server gewoon niet wordt benut.
Heeft iemand enig idee wat hier aan de hand is? (want ik ga er van uit dat dit niet is zoals het hoort!)

Update: Nogmaals ESXi 4.1 geinstalleerd, ditmaal op raid 10 en het probleem is weg. Totale performance volgens hdparm is nu ongeveer 170 GB/s en als de ene VM niets aan het doen is heeft de andere alles voor zich alleen, precies zoals ik het verwachtte. Blijft natuurlij dat het in ESXi 5 niet goed gaat.

[ Voor 8% gewijzigd door trogdor op 15-11-2011 00:15 ]

maandag 14 november 2011 10:47

Acties:

Wirehead

Heb je de optionele cache module + battery backup voor de i410? Indien niet moet je er een kopen > zonder krijg je random I/O resets en drops. (met worst case corruptie tot gevolg). Zonder is jammergenoeg niet supported in ESX(i)

Denon AVR-X2800H, Quadral Amun Mk.III, Technics SL-7, DIY PhonoPre, AT-152LP / 4.225kW Heckert Solar / SMA 3.0-1AV-41 / Kia e-Niro 64kWh First Edition

maandag 14 november 2011 12:50

Acties:

Question Mark

Moderator SSC/WOS

F7 - Nee - Ja

Inderdaad, die Raid controller presteert zonder BBWC nou niet echt denderend.

Verder zijn storage shares enkel intressant bij storage congestion. Het is dus niet zo dat bij 10 aangemaakte VM's, per VM slechts 10 procent van de storage performance beschikbaar gesteld wordt. Default staat de IOPS limit per VM nl. op "unlimited". Dat betekend dat deze alle storage perfomance kan en mag claimen. Pas als de storage congested raakt, worden VM's "geknepen". De mate waarin dit plaatsvindt is afhankelijk van het relatieve aantal shares.

Kijk ook even naar hoofdstuk 4 in de vSphere Resource Management Guide, daarin staat dit uitgelegd

MCSE NT4/2K/2K3, MCTS, MCITP, CCA, CCEA, CCEE, CCIA, CCNA, CCDA, CCNP, CCDP, VCP, CEH + zwemdiploma A & B

dinsdag 15 november 2011 00:24

Acties:

trogdor

Topicstarter

Bedankt voor je uitleg, ik dacht ook dat het zo werken moest, maar daarom begreep ik dus ook niet waarom de performance zo slecht was.
Echt, bij 8 extra (lege!) VMs was er nog maar 11% van de performance over, +- 5 MB/s. Dat merk je snel zat hoor.

En ja, er zit batterybackuped writecache op. Met 8 SAS discs is het waanzin om daar niet een paar euros extra voor neer te tellen leek me. Het is overigens een P400 controller, die 410's zijn van na de G5 serie.
Anyway, nu ik een manier gevonden heb om om dit probleem heen te manouvreren, ook al is het door een downgrade van ESXi 5 naar 4.1, is het niet erg waarschijnlijk dat ik ooit nog verder ga experimenteren met versie 5.0 tenzij ik een server en tijd over heb, of persee een feature uit 5 nodig heb (zoals een storage volume van meer dan 256 GB bijvoorbeeld.)

Bedankt voor het meedenken tot dusver.

dinsdag 15 november 2011 08:31

Acties:

Question Mark

Moderator SSC/WOS

F7 - Nee - Ja

Even twee aandachtspuntjes nog:

Houdt er rekening mee dat als een Raidset gedefineerd wordt er eerst een "background parity initialization" proces gaat lopen wat wel even kan duren. Gedurende dit proces is de performance van je Raidset trager. Het kan zijn dat dit proces nog niet afgerond was.
Controleer verder nog even hoe je controller cache geconfigureerdd staat (even booten met de smartstart CD). Als deze bijvoorbeeld op 100% Read ingesteld staat, is het logisch dat writes nog steeds relatief langzaam zijn.

MCSE NT4/2K/2K3, MCTS, MCITP, CCA, CCEA, CCEE, CCIA, CCNA, CCDA, CCNP, CCDP, VCP, CEH + zwemdiploma A & B

dinsdag 15 november 2011 15:28

Acties:

trogdor

Topicstarter

Raidset is ok, ik heb op de nieuwe productiemachine (DL380G7 met soortgelijke specs maar 2 quadcores) ESXi 5 geinstalleerd en daarop het probleem niet kunnen reproduceren.
Raid 5+1 over discs en consequent boven de 200 MB/s of er nu 2 of 10 VMs op staan.
Tja, geen idee meer. Het zou inderdaad kunnen dat de controller op de achtergrond iets aan het doen was, (alhoewel hij al weken aan stond in dezelfde raid config), en dat daarom hij daarom gethrottled werd en dus verdeeld volgens de ingestelde shares.
Anyway, het werkt nu o.k. op de productie machines.

Onderwerpen