Hallo medetweakers,
Op het werk lopen we op dit moment tegen een heel raar verschijnsel aan. Ik zal proberen het zo duidelijk mogen te omschrijven:
Situatie:
- VMware ESX 3.5 omgeving
- Equallogic iSCSI SAN ( onderverdeeld in RAID10 en RAID50 )
- Windows 2003 gebaseerde servers (virtueel)
- Op iedere server staat Microsoft iSCSI initiator geïnstalleerd
Probleem:
Nu lopen we dus de laatste dagen tegen een probleem aan dat tussen 08:20 uur en 09:30 uur de performance op de fileserver gewoon recht naar beneden dondert. Op dat moment zien we via onze monitoringtool ( Nagios ) dat de avg. disk queue lengt rond de 25 - 30 schommelt op deze betreffende servers.
Het inloggen en werken met documenten is op dat moment dus echt niet vooruit te branden.
Het filesysteem van de betreffende server staat op de RAID50 omgeving van de SAN. De overige servers die hierop staan, hebben totaal geen probleem. Het is echt alleen de fileserver die het probleem heeft.
Op deze server staan (oa) de volgende shares:
- Userprofiles
- Groepsmappen
VM-config van de fileserver:
- 2 CPU's
- 4GB intern geheugen
Nu ligt het dus voor de hand dat het probleem veroorzaakt wordt door het inloggen van een zeer groot aantal gebruikers. Ongeveer 700 medewerkers van de organisatie begint met werken om 08:30 uur. Dit kan dus de grote queue veroorzaken.
Maar we kunnen dus echt op dit moment niet achterhalen, waar precies de opstopping ontstaat. Recentelijk zijn de specs van de fileserver al geüpgrade naar de bestaande waarden ( zie boven ).
Op het moment van inloggen loopt er nog een full backup van de betreffende server. Maar die performance dondert dan ook naar beneden. Logisch, want de disk queue length stijgt als een raket.
In eerdere tests met het pauzeren van de backups heeft dit wel een heel klein beetje geholpen, maar de performance is nog steeds slecht.
Onderzocht:
- Meldingen op de SAN => geen meldingen gevonden
- Logs op de betreffende server => geen opvallende meldingen gevonden ten tijde van de storing
- Backup uitgezet => geen performance winst
- Loopt er een virusscan => nee, er loopt geen virusscan
We hebben nog een kleine visuele controle op de betreffende core switches gehouden. Hierop zien we geen echte toename van de drukte van het netwerkverkeer.
Zelf hebben we een klein vermoeden dat het wellicht te vinden is in de Microsoft iSCSI initiator ( software matige oplossing ). Wellicht dat de software de drukte niet kan verwerken. Maar dit is dus een vermoeden. Er is niet veel te vinden hierover op internet. Er zijn enkele meldingen, maar deze hebben veelal betrekking op SQL-server. De versie die we gebruiken is 2.5.2.
Heeft één van jullie wel eens hiermee te maken gehad ? Of heeft een mogelijke oplossing / oorzaak waar we nog niet naar hebben gekeken ?!
Op het werk lopen we op dit moment tegen een heel raar verschijnsel aan. Ik zal proberen het zo duidelijk mogen te omschrijven:
Situatie:
- VMware ESX 3.5 omgeving
- Equallogic iSCSI SAN ( onderverdeeld in RAID10 en RAID50 )
- Windows 2003 gebaseerde servers (virtueel)
- Op iedere server staat Microsoft iSCSI initiator geïnstalleerd
Probleem:
Nu lopen we dus de laatste dagen tegen een probleem aan dat tussen 08:20 uur en 09:30 uur de performance op de fileserver gewoon recht naar beneden dondert. Op dat moment zien we via onze monitoringtool ( Nagios ) dat de avg. disk queue lengt rond de 25 - 30 schommelt op deze betreffende servers.
Het inloggen en werken met documenten is op dat moment dus echt niet vooruit te branden.
Het filesysteem van de betreffende server staat op de RAID50 omgeving van de SAN. De overige servers die hierop staan, hebben totaal geen probleem. Het is echt alleen de fileserver die het probleem heeft.
Op deze server staan (oa) de volgende shares:
- Userprofiles
- Groepsmappen
VM-config van de fileserver:
- 2 CPU's
- 4GB intern geheugen
Nu ligt het dus voor de hand dat het probleem veroorzaakt wordt door het inloggen van een zeer groot aantal gebruikers. Ongeveer 700 medewerkers van de organisatie begint met werken om 08:30 uur. Dit kan dus de grote queue veroorzaken.
Maar we kunnen dus echt op dit moment niet achterhalen, waar precies de opstopping ontstaat. Recentelijk zijn de specs van de fileserver al geüpgrade naar de bestaande waarden ( zie boven ).
Op het moment van inloggen loopt er nog een full backup van de betreffende server. Maar die performance dondert dan ook naar beneden. Logisch, want de disk queue length stijgt als een raket.
In eerdere tests met het pauzeren van de backups heeft dit wel een heel klein beetje geholpen, maar de performance is nog steeds slecht.
Onderzocht:
- Meldingen op de SAN => geen meldingen gevonden
- Logs op de betreffende server => geen opvallende meldingen gevonden ten tijde van de storing
- Backup uitgezet => geen performance winst
- Loopt er een virusscan => nee, er loopt geen virusscan
We hebben nog een kleine visuele controle op de betreffende core switches gehouden. Hierop zien we geen echte toename van de drukte van het netwerkverkeer.
Zelf hebben we een klein vermoeden dat het wellicht te vinden is in de Microsoft iSCSI initiator ( software matige oplossing ). Wellicht dat de software de drukte niet kan verwerken. Maar dit is dus een vermoeden. Er is niet veel te vinden hierover op internet. Er zijn enkele meldingen, maar deze hebben veelal betrekking op SQL-server. De versie die we gebruiken is 2.5.2.
Heeft één van jullie wel eens hiermee te maken gehad ? Of heeft een mogelijke oplossing / oorzaak waar we nog niet naar hebben gekeken ?!