Een lastig probleem bij onze sharepoint omgeving, voor mij moeilijk te omschrijven, dus als je informatie mist,
roep en ik zoek het erbij.
Wij hebben een sharepoint omgeving draaien op 1 host, 5 virtuele servers.
Frontend 01
Frontend 02
Index01
SQL01
DC01
virtuele specs;
dual core x5450@3ghz, 4gb geheugen, 20gb voor C:&D:
Deze wordt gebruikt voor onze website voor klanten. Zit geen bestelsysteem oid in, alleen informatie,
maar wel VEEL informatie.
Zo'n beetje elke dag begint plotseling op 1 van de frontend servers het geheugengebreuk flink op te lopen, tot de betreffende FE server niet meer reageert, en het enige dat je kan doen is een iisreset geven om hem weer te laten lopen.
Als de FE01 eruit gaat weet je eigenlijk zeker dat de FE02 ook gaat, vermoedelijk door de load die niet meer verdeeld wordt.
Oorzaak is nog niet geheel duidelijk, vermoeden is dat een stukje code van de website die door een externe leverancier in elkaar geknutseld is ergens vast loopt. Leverancier is er mee bezig, maar kan zo nog geen duidelijke oorzaak vinden, op hun test systemen gebeurd het niet. Onze testomgeving ook niet, maar das 1 server die door vrijwel niemand gebruikt wordt, tenzij er iets te testen valt.
Wat mij op valt op de FE02 is dat de avg disk queue length en de %disk time erg hoog zijn. De scale van 1000 op % disk time staat eigenlijk continu op 100% in perfmon.
Op de FE01 piekt hij hooguit af en toe op 100, gemiddeld op de 40%
Het uitvallen van de servers gaat vaak om en om, maar niet in een vaste volgorde. Dus FE01 gaat niet altijd als eerste, en andersom. Qua performance bekeken vanuit de task manager loopt het cpu gebruik tussen de 20-60%, met af en toe pieken tot de 80%. qua PF usage staat hij stabiel op rond de 2.3gb. page file staat ingesteld op 4gb op C, en 4gb op D. (overigens heeft de C nog 3gb vrij, pagefile is al toegewezen)
Waar zou ik moeten beginnen met troubleshooten??
Het enige dat echt afwijkt van wat ik verwacht is de disk time en avg disk queue length.
Het sharepoint logboek staat niks vreemds in, logging staat op default waardes (dus vrijwel alles, 96 log files en 30 min per log file)
Eigenlijk staan er nergens fouten, dus de enige afwijkende indicator is die disk waarde.
Overigens, ik heb deze omgeving niet ingericht, dus waarom deze instellingen zo staan weet ik niet,
kan er wel achterkomen als jullie iets vreemds denken te zien.
Ik moet nog een aanvraag indienen voor de SCOM log van een dag om eens te zien of daar wat vreemds op staat, zowel van de host als van de virtuele server. Maar aangezien de FE01 niet zulke vreemde disk waarden heeft, ligt het denk ik toch echt aan de FE02. (zou zelf overigens graag een FE03 zien, aangezien 1 FE server de klap van het uitvallen van de ander niet aan kan, en dan als het kan op een fysiek andere host ivm redundantie, maar de centjes zijn op dus dikke pech)
Alvast dank voor de eventuele tips.
roep en ik zoek het erbij.
Wij hebben een sharepoint omgeving draaien op 1 host, 5 virtuele servers.
Frontend 01
Frontend 02
Index01
SQL01
DC01
virtuele specs;
dual core x5450@3ghz, 4gb geheugen, 20gb voor C:&D:
Deze wordt gebruikt voor onze website voor klanten. Zit geen bestelsysteem oid in, alleen informatie,
maar wel VEEL informatie.
Zo'n beetje elke dag begint plotseling op 1 van de frontend servers het geheugengebreuk flink op te lopen, tot de betreffende FE server niet meer reageert, en het enige dat je kan doen is een iisreset geven om hem weer te laten lopen.
Als de FE01 eruit gaat weet je eigenlijk zeker dat de FE02 ook gaat, vermoedelijk door de load die niet meer verdeeld wordt.
Oorzaak is nog niet geheel duidelijk, vermoeden is dat een stukje code van de website die door een externe leverancier in elkaar geknutseld is ergens vast loopt. Leverancier is er mee bezig, maar kan zo nog geen duidelijke oorzaak vinden, op hun test systemen gebeurd het niet. Onze testomgeving ook niet, maar das 1 server die door vrijwel niemand gebruikt wordt, tenzij er iets te testen valt.
Wat mij op valt op de FE02 is dat de avg disk queue length en de %disk time erg hoog zijn. De scale van 1000 op % disk time staat eigenlijk continu op 100% in perfmon.
Op de FE01 piekt hij hooguit af en toe op 100, gemiddeld op de 40%
Het uitvallen van de servers gaat vaak om en om, maar niet in een vaste volgorde. Dus FE01 gaat niet altijd als eerste, en andersom. Qua performance bekeken vanuit de task manager loopt het cpu gebruik tussen de 20-60%, met af en toe pieken tot de 80%. qua PF usage staat hij stabiel op rond de 2.3gb. page file staat ingesteld op 4gb op C, en 4gb op D. (overigens heeft de C nog 3gb vrij, pagefile is al toegewezen)
Waar zou ik moeten beginnen met troubleshooten??
Het enige dat echt afwijkt van wat ik verwacht is de disk time en avg disk queue length.
Het sharepoint logboek staat niks vreemds in, logging staat op default waardes (dus vrijwel alles, 96 log files en 30 min per log file)
Eigenlijk staan er nergens fouten, dus de enige afwijkende indicator is die disk waarde.
Overigens, ik heb deze omgeving niet ingericht, dus waarom deze instellingen zo staan weet ik niet,
kan er wel achterkomen als jullie iets vreemds denken te zien.
Ik moet nog een aanvraag indienen voor de SCOM log van een dag om eens te zien of daar wat vreemds op staat, zowel van de host als van de virtuele server. Maar aangezien de FE01 niet zulke vreemde disk waarden heeft, ligt het denk ik toch echt aan de FE02. (zou zelf overigens graag een FE03 zien, aangezien 1 FE server de klap van het uitvallen van de ander niet aan kan, en dan als het kan op een fysiek andere host ivm redundantie, maar de centjes zijn op dus dikke pech)
Alvast dank voor de eventuele tips.
[ Voor 1% gewijzigd door MrDrako op 30-01-2012 13:34 . Reden: specs toegevoegd ]