Aruba switch - links continue down en weer up - Netwerken

Vraag

vrijdag 26 april 2024 10:22

Acties:

Carina Nebula says hi!

Topicstarter

Onlangs een nieuwe Aruba IsntantOn switch gekocht, de 1960 12XGT 4SFP+.

Alles zat aangesloten op 2 Ubiquiti Unifi switches, waarop ik eigenlijk nooit issues heb gehad.

Het probleem treedt op met een kubernetes cluster, 5 nodes, HP Prodesk 405 systeempjes waar Talos Linux op draait. Wat er continue gebeurd is dat de link down gaat, paar seconden later weer up. Kernel log op een systeem logt vervolgens dit:

code:

10.0.0.16: kern:    info: [2024-04-26T04:33:29.022540987Z]: r8169 0000:03:00.1 eth0: Link is Down
 SUBSYSTEM=pci
 DEVICE=+pci:0000:03:00.1
10.0.0.16: user: warning: [2024-04-26T04:33:29.036059987Z]: [talos] no suitable node IP found, please make sure .machine.kubelet.nodeIP filters and pod/service subnets are set up correctly {"component": "controller-runtime", "controller": "k8s.NodeIPController"}
10.0.0.16: kern:    info: [2024-04-26T04:33:32.101426987Z]: r8169 0000:03:00.1 eth0: Link is Up - 1Gbps/Full - flow control off
 SUBSYSTEM=pci
 DEVICE=+pci:0000:03:00.1
10.0.0.16: kern:    info: [2024-04-26T04:33:34.932336987Z]: r8169 0000:03:00.1 eth0: Link is Down
 SUBSYSTEM=pci
 DEVICE=+pci:0000:03:00.1
10.0.0.16: user: warning: [2024-04-26T04:33:34.939666987Z]: [talos] no suitable node IP found, please make sure .machine.kubelet.nodeIP filters and pod/service subnets are set up correctly {"component": "controller-runtime", "controller": "k8s.NodeIPController"}
10.0.0.16: kern:    info: [2024-04-26T04:33:37.947398987Z]: r8169 0000:03:00.1 eth0: Link is Up - 1Gbps/Full - flow control off
 SUBSYSTEM=pci
 DEVICE=+pci:0000:03:00.1
10.0.0.16: user: warning: [2024-04-26T04:33:50.944706987Z]: [talos] kubernetes endpoint watch error {"component": "controller-runtime", "controller": "k8s.EndpointController", "error": "failed to list *v1.Endpoints: Get \"https://talos.k8s.mijndomein.net:6443/api/v1/namespaces/default/endpoints?fieldSelector=metadata.name%3Dkubernetes&resourceVersion=48942475\": dial tcp: lookup talos.k8s.mijndomein.net on 10.0.0.1:53: read udp 10.0.0.16:35289->10.0.0.1:53: i/o timeout"}
10.0.0.16: user: warning: [2024-04-26T04:33:53.220413987Z]: [talos] failed refreshing discovery service data {"component": "controller-runtime", "controller": "cluster.DiscoveryServiceController", "error": "error updating local affiliate data: rpc error: code = DeadlineExceeded desc = context deadline exceeded"}
10.0.0.16: user: warning: [2024-04-26T04:33:56.989738987Z]: [talos] service[etcd](Running): Health check failed: context deadline exceeded
10.0.0.16: user: warning: [2024-04-26T04:34:03.798950987Z]: [talos] hello failed {"component": "controller-runtime", "controller": "cluster.DiscoveryServiceController", "error": "rpc error: code = DeadlineExceeded desc = context deadline exceeded", "endpoint": "discovery.talos.dev:443"}
10.0.0.16: user: warning: [2024-04-26T04:34:14.241894987Z]: [talos] hello failed {"component": "controller-runtime", "controller": "cluster.DiscoveryServiceController", "error": "rpc error: code = DeadlineExceeded desc = context deadline exceeded", "endpoint": "discovery.talos.dev:443"}
10.0.0.16: user: warning: [2024-04-26T04:34:15.962921987Z]: [talos] service[etcd](Running): Health check successful
10.0.0.16: kern:    info: [2024-04-26T05:21:42.137402987Z]: r8169 0000:03:00.1 eth0: Link is Down

In de switch log zie ik dit (debug logging staat al aan):

code:

1
2
3

4   Apr 26 2024 08:54:49    Warning STP-W-PORTSTATUS    1/1: STP status Forwarding
5   Apr 26 2024 08:54:44    Info    LINK-I-Up   1/1
6   Apr 26 2024 08:54:41    Warning LINK-W-Down 1/1

Ik heb de volgende settings aan en uit gehad om te testen:
- flow control
- storm control
- link flap protection

Die laatste zou een port op suspended moeten zetten, maar dat gebeurd niet.

Ik heb ondertussen ook een support case geopend, wanneer ik niet binnen enkele dagen een oplossing vind kan ik de switch (helaas) terugsturen. Dat zou echt balen zijn want verder is het een geweldig apparaat eigenlijk!

Ik hoor het graag wanneer je weet wat er aan de hand zou kunnen zijn!

Alvast bedankt!

Alle reacties

vrijdag 26 april 2024 12:56

Acties:

jadjong

Probeer eens een andere poort op de switch en een andere kabel.

vrijdag 26 april 2024 13:38

Acties:

InflatableMouse

Carina Nebula says hi!

Topicstarter

Ja, sorry had ik even moeten melden uiteraard.

Dat heb ik geprobeerd. Het zijn 5 nodes, verschillende poorten en verschillende sets kabels (waaronder splinternieuwe) geprobeerd, alles levert hetzelfde resultaat. Soms een uurtje goed, dan ineens 3x achter elkaar links down en weer up.

Support heeft van zich laten horen, ze willen een Teams call. Positief! Ben benieuwd!

vrijdag 26 april 2024 13:45

Acties:

jadjong

Link fixed op 1Gbps instellen? Of juist niet... Teams call met support is wel gezellig.

vrijdag 26 april 2024 13:50

Acties:

SniperGuy

Best practice is beide kanten van de kabel hetzelfde instellen:
switch auto/FD = client auto/FD
switched fixed/FD = Client fixed/FD

O en altijd de laatste NIC drivers en firmware/OS op de switch installeren

[ Voor 23% gewijzigd door SniperGuy op 26-04-2024 13:51 ]

vrijdag 26 april 2024 13:53

Acties:

InflatableMouse

Carina Nebula says hi!

Topicstarter

Dank!

Fixed zetten helpt niet. beide kanten staan gelijk.
OS is up2date.
Laatste firmware is geinstalleerd (deed het met de vorige versie ook).

vrijdag 26 april 2024 14:19

Acties:

KernelPanic

Je hebt dus momenteel gewoon maar 1 switch actief) Wat gebeurd er als je stp gewoon uitzet (spanning tree protocol)

vrijdag 26 april 2024 14:24

Acties:

jadjong

Zijn die nodes onderling ook nog op een manier verbonden?

vrijdag 26 april 2024 14:37

Acties:

InflatableMouse

Carina Nebula says hi!

Topicstarter

Ik heb nog steeds meerdere switches, het was de bedoeling de komende tijd alle 3 de Unifi's te vervangen met een aantal van deze Aruba's.

Momenteel dus 1 Aruba, 3 Unifi's.

Ik heb, omdat Kubernetes volledig over de zeik gaat anders, alleen controlplane node 1 op de Aruba zitten. Cluster VIP zit op een van de andere 2 controlplanes die stabiel zijn op de Unifi switches.

Bij de firewall staat 1 Unifi switch, 2x 1G glas in LACP link naar de Aruba.
Aruba heeft 2x 1G RJ45 LACP naar de tweede Unifi, daar zit een Unifi AP op (PoE, heeft de Aruba niet).
De tweede Unifi heeft 1x 1G glas naar de derde Unifi. Die kon uit, tot ik plek nodig had voor de 4 Kubernetes nodes, die zitten nu daar op.

Ik heb ondertussen nogmaals een andere kabel gepakt. Geen verschil.
MTU geforceerd op Talos naar 1500. Default zou goed moeten zijn maar moet wat proberen

Ik kan Talos niet forceren naar fixed 1gbps, daar loopt nu een support vraag voor. Ik dacht dat dat wel kon maar nu ik het probeer zie ik er geen optie voor.

@jadjong Nee, 1x CAT6 naar de switch, meer niet.
@KernelPanic Zie boven, dat kan niet, mede omdat in principe de AP een loop kan vormen.

ps. 15:00 Teams meeting met Support

vrijdag 26 april 2024 16:07

Acties:

InflatableMouse

Carina Nebula says hi!

Topicstarter

Ik heb aantekeningen bijgehouden met wat we gedaan hebben.

Als eerste aantal instellingen langsgelopen en onderstaand gewijzigd:
Spanning Tree / Global / Spanning Tree Admin Mode: Disabled
Switching / EEE Configuration / Global / Auto Port Power Down: Disabled
Switching / EEE Configuration / Global / Low Power Idle (EEE): Disabled
Switching / Loop Protection / Global / Loop Protection: Enabled
Switching / Loop Protection / Interface Configuration: All Interfaces: Loop Protection: Enabled

Ik had nog maar 1 node op de Aruba zitten, nu zit het als volgt:

1/1 Control Plane Node 1
1/2 Control Plane Node 2
1/3 Control Plane Node 3

1/5 Worker Node 1
1/6 Worker Node 2

1/9 Uplink Unifi 1 - has WiFi AP with PoE connected.

1/13 Trunk Member 1 NAS
1/14 Trunk Member 2 NAS
1/15 Trunk Member 1 Uplink CORE
1/16 Trunk Member 2 Uplink CORE

Met alle 5 de nodes gingen er meerdere per minuut down en weer up (ik werd gek van de monitoring alerts).

Voorzichtige aanname: tot nu toe lijkt het stil, geen meldingen van het afgelopen kwartier.

Ik vermoed dus STP of die auto port down in power settings.

Na het weekend moet ik nieuwe logs aanleveren en gaat ze verder uitzoeken wat het kan zijn.

Ik ben blij! Het lijkt goed te komen

zaterdag 27 april 2024 16:18

Acties:

KernelPanic

Het komt altijd goed

Nu is het me nog niet duidelijk waarom je stp nodig hebt met je AP maar zonder visueel schema is dat ook lastig zeggen.

Spanning Tree / Global / Spanning Tree Admin Mode: Disabled

Dat zal dan hoogstwaarschijnlijk de oplossing geweest zijn. Je had denk ik al een config op de Ubiquiti switches staan waarbij 1 zich als root adverteerd.

Nu kwam de Aruba erbij die zich met Admin mode aan als root adverteerd, waarbij ze zich vervolgens onderling ruzie hierover gaan lopen maken waarbij het de hele tijd heen en weer ging.

Dus Ubiquiti root ------> Aruba Root (verbinding weg) -----> Ubiquiti root (verbinding weg) en zo continu door.

Door die modus uit te zetten wordt de Aruba geen root meer en blijft dit bij Ubiquiti en daarmee geen switching meer.

zaterdag 27 april 2024 16:25

Acties:

DukeBox

loves wheat smoothies

Unifi en HP/Aruba is inderdaad een geklooi met STP, zolang de poort als edge blijft staan blijft die disabled gaan bij meerdere mac adressen. Meestal is de oorzaak als op de unifi poort niet alle VLAN's worden doorgelaten en met name VLAN1. HP/Aruba doet STP per VLAN waar unifi dat niet helemaal goed oppakt.

[ Voor 162% gewijzigd door DukeBox op 27-04-2024 16:30 ]

Duct tape can't fix stupid, but it can muffle the sound.

zondag 28 april 2024 07:27

Acties:

InflatableMouse

Carina Nebula says hi!

Topicstarter

@KernelPanic Ik denk omdat de unifi #1 een AP heeft plus een uplink naar unifi #2 welke ook een AP heeft. Deze AP's communiceren ook onderling met elkaar en vormt dan een loop.

Voor wat betreft STP op de Aruba, (en ik ben geen Netwerk specialist laat dat duidelijk zijn) dat zijn STP zich zou beperken tot zichzelf en daarmee "baat het niet schaadt het niet" idee. Dat is blijkbaar dus niet zo.

@DukeBox Interessant! En je bedoelt dan op de Unifi poort de uplink naar de Aruba welke niet alle VLAN's zou doorlaten? Ik heb wel vlans geconfigureerd op andere poorten niet op de uplinks naar andere switches.

zondag 28 april 2024 10:30

Acties:

mash_man02

STP hoort gewoon aan te staan. Als dat je "probleem" oplost is er iets goed mis.

Uit de logging blijkt dat niet, dat STP naar forwarding gaat is normaal.

Dus Ik zou wijzigingen individueel gaan uitvoeren en beoordelen.

Je weet nu immers nog niet waar het issue vandaan komt.

Een loop over 2 apps zou een van deze 2 poorten in blocking zetten.

Asus X570-E AMD ryzen 5800x3D 64Gb Sapphire 7900xtx X-vapor nitro+

woensdag 1 mei 2024 09:58

Acties:

InflatableMouse

Carina Nebula says hi!

Topicstarter

Helaas dus ook na de support call nog steeds problemen. De switch logt nog steeds ports down/up, alleen zonder STP vermelding. Blijkbaar kan ik geen enkele feature aanzetten zonder dat dit tot problemen leidt.

- flow control, jumbo frames, storm control, (R)STP, noem ze maar op. Als ik alles uitzet logt de switch geen problemen meer, maar op mijn kubernetes nodes zie ik nog steeds dat de verbinding kwijt raakt tijdens storage volume replicatie.

Ik heb de switch ook zelfstandig gehad, met alleen mn eigen laptop en de kubernetes nodes. Geen connectie dus met de Unifi's of access points, en nog steeds ports down en up.

Ik had gisteren meerdere corrupte replica's wat me een groot deel van de avond heeft gekost om te troubleshooten en weer recht te zetten. Uiteindelijk alle kubernetes hosts terug op een Unifi switch gezet en toen kwam alles vanzelf weer recht.

Contact met de winkel gehad en ik mag hem omruilen. Net de meerprijs voldaan voor een Unifi Enterprise switch, en zodra de Aruba terug is bij hun zal deze mijn kant op komen.

Is een klap duurder, maar 24 poorts. De Aruba had ik eigenlijk gehaald voor de 4x SFP+ poorten, de Unifi heeft er maar 2. Moet ik een paar SFP-naar-RJ45 zien te bemachtigen voor niet te veel geld. Als ik dat ergens vandaan kan toveren heb ik uiteindelijk maar 2 van die Unifi's nodig tegenover 3 Aruba's, dan valt de meerprijs nog wel mee denk ik. Either way, point of no return is voorbij!

[ Voor 6% gewijzigd door InflatableMouse op 01-05-2024 10:00 ]

donderdag 2 mei 2024 10:28

Acties:

KernelPanic

Lijkt me een goede oplossing dan, met die Aruba was het vast ook wel op te lossen maar is maar net hoeveel tijd en frustratie je erin wil stoppen.

Hopelijk meer geluk met die nieuwe Unify

zaterdag 4 mei 2024 16:38

Acties:

InflatableMouse

Carina Nebula says hi!

Topicstarter

Oke, ik heb mijn lesje geleerd. Voortaan gewoon dieper in de buidel tasten en Ubiquiti kopen.

Wat een mooi apparaat. Gebouwd als een tank, geen geluid. De 3 fans zijn in te regelen en passen zich automatisch aan. Nylon omwonden power kabel, zit een schuifje naast de plug die de plug vast zet zodat deze er niet uit kan vallen. Touch screen waarvan ik eerst van dacht dat het een onzinnig klein onhandig dom schermpje zou zijn, maar wat verbluffend handig en goed werkt eigenlijk. Integratie en configuratie met de reeds bestaande Unifi apparatuur ging uiteraard vanzelf.

Geen problemen!

Zo hangt tie nu. Nog een beetje verder organiseren maar na een hele dag onder bureau's op mn knieen hebben gezeten zegt m'n rug: "Morgen nog een dag"!

Afbeeldingslocatie: https://tweakers.net/i/laDbjCqOjHF5kf6QUQZqqNGcmS4=/800x/filters:strip_icc():strip_exif()/f/image/uXOANxAP9r0X9gjkoFemoEyY.jpg?f=fotoalbum_large

[ Voor 0% gewijzigd door InflatableMouse op 04-05-2024 17:07 . Reden: typo ]

Pagina: 1

Reageer

Aruba switch - links continue down en weer up

Onderwerpen

Vraag

Alle reacties