BGP freaks onder ons... HELP,
Ons ISP netwerk is zojuist 15 minuten deels down geweest, terwijl we volledig redudant via meerdere uplinks met meerdere upstream providers via een eigen AS nummer via BGP4 met internet verbonden zijn.
Het probleem ontstond doordat een BGP tabelen op een router van een van de upstream providers niet direct geupdated werd terwijl links verder in hun netwerk down waren.
We waren genoodzaakt om onze BGP link naar deze Provider handmatig down te brengen.
15 minuten minder bereikbaar zijn is voor ons een eeuwigheid, laten we zeggen dat dit voor ons bedrijf een duur incidentje was
Ik weet dat het BGP4 protocol dit zelf niet kan opvangen, maar bestaan er tools (in hardware en/of software) welke in z'n geval onze eigen BGP tabellen kunnen beinvloeden?
Dit zodat indien er een groot aantal routes van een upstream provider down zijn deze een lagere prefix krijgen of zelfs de hele BGP sessie naar deze provider verbroken wordt. Het detecteren van een groot aantal dode routings zou dan dus bijna realtime moeten gebeuren. Een gedeeltelijke downtime van 120 seconden ofzo zou in z'n situatie geen probleem zijn, maar 15 minuten agghh (sneller kunnen z'n storing rond 2:30 snachts niet oplossen).
Wakker worden van een pager en dan remote gaan debugen op BGP nivo kost nu helaas eenmaal tijd...
Ons ISP netwerk is zojuist 15 minuten deels down geweest, terwijl we volledig redudant via meerdere uplinks met meerdere upstream providers via een eigen AS nummer via BGP4 met internet verbonden zijn.
Het probleem ontstond doordat een BGP tabelen op een router van een van de upstream providers niet direct geupdated werd terwijl links verder in hun netwerk down waren.
We waren genoodzaakt om onze BGP link naar deze Provider handmatig down te brengen.
15 minuten minder bereikbaar zijn is voor ons een eeuwigheid, laten we zeggen dat dit voor ons bedrijf een duur incidentje was

Ik weet dat het BGP4 protocol dit zelf niet kan opvangen, maar bestaan er tools (in hardware en/of software) welke in z'n geval onze eigen BGP tabellen kunnen beinvloeden?
Dit zodat indien er een groot aantal routes van een upstream provider down zijn deze een lagere prefix krijgen of zelfs de hele BGP sessie naar deze provider verbroken wordt. Het detecteren van een groot aantal dode routings zou dan dus bijna realtime moeten gebeuren. Een gedeeltelijke downtime van 120 seconden ofzo zou in z'n situatie geen probleem zijn, maar 15 minuten agghh (sneller kunnen z'n storing rond 2:30 snachts niet oplossen).
Wakker worden van een pager en dan remote gaan debugen op BGP nivo kost nu helaas eenmaal tijd...