Situatieschets:
Een Dual opteron 248 hangt in een datacenter met een 100mbit/s uplink, deze wordt gebruikt als server voor een aantal multiplayer games.
Sinds vorige week treden komt het steeds vaker voor dat de gameservers voor een paar seconden volledig uit de lucht zijn, om hierna weer terug te keren alsof er niets aan de hand is (soort van extreem lange lag).
Nu heb ik het volgende al gedaan:
Op de server zelf zijn gateway continu laten pingen.
Vanaf 2 andere locaties diezelfde gateway continu pingen.
Vanaf 2 andere locaties de server zelf continu pingen.
Resultaat: Op het moment dat de gameservers niet meer reageren is van buitenaf de server zelf niet meer te pingen, de gateway nog wel.
De server zelf kan zijn eigen gateway ook niet meer pingen, hieruit concludeer ik dat het toch echt aan mijn server ligt.
Als volgende stap heb ik dmv Performance counters een aantal zaken in de gaten laten houden:
Network: Output queue length
Disk: Avg. Queue length
Memory: Pages/sec + Available memory
CPU: % cpu time
Ik had graag willen zeggen dat ik op de momenten dat de verbinding wegviel hier rare dingen zag staan maar dat is helaas niet zo, het meest vreemde vind ik dat de queue length op de netwerkinterface geen rariteiten vertoond.
Persoonlijk heb ik het idee dat de ethernetcontroller de geest aan het geven is, ik kan hier natuurlijk helemaal naast zitten.
Komende zaterdag ga ik als ik eindelijk gevonden heb wat het probleem is / nuttige suggesties gekregen heb naar het datacenter om werk te verrichten aan de server (ik begin allereerst met het gebruiken van een andere netwerkkaart in de server).
Het is momenteel ontzettend onvoorspelbaar wanneer de server dit gedrag vertoond, hij doet dit dan ook max. een keer of 10 per dag (voornamelijk in de avond uren).
De hoeveelheid dataverkeer heeft totaal geen invloed in mijn ogen aangezien het gebeurt wanneer er een bandbreedteverbruik van 400kb/s (up+down) is maar ook als er maar 10kb/s (up+down) verstookt wordt.
Iemand enig idee wat ik hier nog aan zou kunnen testen / veranderen?
Een Dual opteron 248 hangt in een datacenter met een 100mbit/s uplink, deze wordt gebruikt als server voor een aantal multiplayer games.
Sinds vorige week treden komt het steeds vaker voor dat de gameservers voor een paar seconden volledig uit de lucht zijn, om hierna weer terug te keren alsof er niets aan de hand is (soort van extreem lange lag).
Nu heb ik het volgende al gedaan:
Op de server zelf zijn gateway continu laten pingen.
Vanaf 2 andere locaties diezelfde gateway continu pingen.
Vanaf 2 andere locaties de server zelf continu pingen.
Resultaat: Op het moment dat de gameservers niet meer reageren is van buitenaf de server zelf niet meer te pingen, de gateway nog wel.
De server zelf kan zijn eigen gateway ook niet meer pingen, hieruit concludeer ik dat het toch echt aan mijn server ligt.
Als volgende stap heb ik dmv Performance counters een aantal zaken in de gaten laten houden:
Network: Output queue length
Disk: Avg. Queue length
Memory: Pages/sec + Available memory
CPU: % cpu time
Ik had graag willen zeggen dat ik op de momenten dat de verbinding wegviel hier rare dingen zag staan maar dat is helaas niet zo, het meest vreemde vind ik dat de queue length op de netwerkinterface geen rariteiten vertoond.
Persoonlijk heb ik het idee dat de ethernetcontroller de geest aan het geven is, ik kan hier natuurlijk helemaal naast zitten.
Komende zaterdag ga ik als ik eindelijk gevonden heb wat het probleem is / nuttige suggesties gekregen heb naar het datacenter om werk te verrichten aan de server (ik begin allereerst met het gebruiken van een andere netwerkkaart in de server).
Het is momenteel ontzettend onvoorspelbaar wanneer de server dit gedrag vertoond, hij doet dit dan ook max. een keer of 10 per dag (voornamelijk in de avond uren).
De hoeveelheid dataverkeer heeft totaal geen invloed in mijn ogen aangezien het gebeurt wanneer er een bandbreedteverbruik van 400kb/s (up+down) is maar ook als er maar 10kb/s (up+down) verstookt wordt.
Iemand enig idee wat ik hier nog aan zou kunnen testen / veranderen?