In ons serverpark hebben wij onverklaarbare, willekeurige, kortdurende hikjes in onze netwerkverbinding. Om te debuggen draaien wij een script dat elke minuut vanaf alle servers een traceroute doet naar alle andere servers.
In bijna alle gevallen gaat dit goed, maar af en toe rapporteert dit script naar een andere server niet te kunnen tracerouten. Op het moment dat je dan op die server inlogt en het handmatig doet is het probleem alweer weg.
De servers zijn verdeeld over drie racks welke met elkaar in contact staan via juniper switches met een glasvezelkabel ertussen. Vanwege een recentelijke uitbreiding zijn er twee losse /24 subnets welke nog gemerged moeten worden. Alle servers hebben dus een extra route toegevoegd om dit subnet te kunnen bereiken.
De problemen zijn volkomen random. Server X kan niet tracerouten naar server G. De volgende keer is het server B die server H niet kan vinden. Het kan optreden bij servers in andere racks, of in hetzelfde rack, tussen servers in hetzelfde subnet of in het andere subnet.
De servers zijn een combinatie van
- M610's
- M620's
- R310's
De meeste servers zijn uitgerust met een broadcom NetXtreme II uit de BCM serie. Alle servers gebruiken twee netwerkpoorten, die via bonding (balance-tlb) zijn geconfigureerd.
Wat het voor mij lastig te traceren maakt is het feit dat het probleem net zo snel verdwijnt als het verschijnt en ik dus niet verschillende instellingen kan proberen om te zien of dat het probleem oplost.
Wat kan ik nog meer doen om de oorzaak te vinden en dit op te lossen?
In bijna alle gevallen gaat dit goed, maar af en toe rapporteert dit script naar een andere server niet te kunnen tracerouten. Op het moment dat je dan op die server inlogt en het handmatig doet is het probleem alweer weg.
De servers zijn verdeeld over drie racks welke met elkaar in contact staan via juniper switches met een glasvezelkabel ertussen. Vanwege een recentelijke uitbreiding zijn er twee losse /24 subnets welke nog gemerged moeten worden. Alle servers hebben dus een extra route toegevoegd om dit subnet te kunnen bereiken.
De problemen zijn volkomen random. Server X kan niet tracerouten naar server G. De volgende keer is het server B die server H niet kan vinden. Het kan optreden bij servers in andere racks, of in hetzelfde rack, tussen servers in hetzelfde subnet of in het andere subnet.
De servers zijn een combinatie van
- M610's
- M620's
- R310's
De meeste servers zijn uitgerust met een broadcom NetXtreme II uit de BCM serie. Alle servers gebruiken twee netwerkpoorten, die via bonding (balance-tlb) zijn geconfigureerd.
Wat het voor mij lastig te traceren maakt is het feit dat het probleem net zo snel verdwijnt als het verschijnt en ik dus niet verschillende instellingen kan proberen om te zien of dat het probleem oplost.
Wat kan ik nog meer doen om de oorzaak te vinden en dit op te lossen?
Ik ontken het bestaan van IE.