Onlangs een nieuwe Aruba IsntantOn switch gekocht, de 1960 12XGT 4SFP+.
Alles zat aangesloten op 2 Ubiquiti Unifi switches, waarop ik eigenlijk nooit issues heb gehad.
Het probleem treedt op met een kubernetes cluster, 5 nodes, HP Prodesk 405 systeempjes waar Talos Linux op draait. Wat er continue gebeurd is dat de link down gaat, paar seconden later weer up. Kernel log op een systeem logt vervolgens dit:
In de switch log zie ik dit (debug logging staat al aan):
Ik heb de volgende settings aan en uit gehad om te testen:
- flow control
- storm control
- link flap protection
Die laatste zou een port op suspended moeten zetten, maar dat gebeurd niet.
Ik heb ondertussen ook een support case geopend, wanneer ik niet binnen enkele dagen een oplossing vind kan ik de switch (helaas) terugsturen. Dat zou echt balen zijn want verder is het een geweldig apparaat eigenlijk!
Ik hoor het graag wanneer je weet wat er aan de hand zou kunnen zijn!
Alvast bedankt!
Alles zat aangesloten op 2 Ubiquiti Unifi switches, waarop ik eigenlijk nooit issues heb gehad.
Het probleem treedt op met een kubernetes cluster, 5 nodes, HP Prodesk 405 systeempjes waar Talos Linux op draait. Wat er continue gebeurd is dat de link down gaat, paar seconden later weer up. Kernel log op een systeem logt vervolgens dit:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
| 10.0.0.16: kern: info: [2024-04-26T04:33:29.022540987Z]: r8169 0000:03:00.1 eth0: Link is Down SUBSYSTEM=pci DEVICE=+pci:0000:03:00.1 10.0.0.16: user: warning: [2024-04-26T04:33:29.036059987Z]: [talos] no suitable node IP found, please make sure .machine.kubelet.nodeIP filters and pod/service subnets are set up correctly {"component": "controller-runtime", "controller": "k8s.NodeIPController"} 10.0.0.16: kern: info: [2024-04-26T04:33:32.101426987Z]: r8169 0000:03:00.1 eth0: Link is Up - 1Gbps/Full - flow control off SUBSYSTEM=pci DEVICE=+pci:0000:03:00.1 10.0.0.16: kern: info: [2024-04-26T04:33:34.932336987Z]: r8169 0000:03:00.1 eth0: Link is Down SUBSYSTEM=pci DEVICE=+pci:0000:03:00.1 10.0.0.16: user: warning: [2024-04-26T04:33:34.939666987Z]: [talos] no suitable node IP found, please make sure .machine.kubelet.nodeIP filters and pod/service subnets are set up correctly {"component": "controller-runtime", "controller": "k8s.NodeIPController"} 10.0.0.16: kern: info: [2024-04-26T04:33:37.947398987Z]: r8169 0000:03:00.1 eth0: Link is Up - 1Gbps/Full - flow control off SUBSYSTEM=pci DEVICE=+pci:0000:03:00.1 10.0.0.16: user: warning: [2024-04-26T04:33:50.944706987Z]: [talos] kubernetes endpoint watch error {"component": "controller-runtime", "controller": "k8s.EndpointController", "error": "failed to list *v1.Endpoints: Get \"https://talos.k8s.mijndomein.net:6443/api/v1/namespaces/default/endpoints?fieldSelector=metadata.name%3Dkubernetes&resourceVersion=48942475\": dial tcp: lookup talos.k8s.mijndomein.net on 10.0.0.1:53: read udp 10.0.0.16:35289->10.0.0.1:53: i/o timeout"} 10.0.0.16: user: warning: [2024-04-26T04:33:53.220413987Z]: [talos] failed refreshing discovery service data {"component": "controller-runtime", "controller": "cluster.DiscoveryServiceController", "error": "error updating local affiliate data: rpc error: code = DeadlineExceeded desc = context deadline exceeded"} 10.0.0.16: user: warning: [2024-04-26T04:33:56.989738987Z]: [talos] service[etcd](Running): Health check failed: context deadline exceeded 10.0.0.16: user: warning: [2024-04-26T04:34:03.798950987Z]: [talos] hello failed {"component": "controller-runtime", "controller": "cluster.DiscoveryServiceController", "error": "rpc error: code = DeadlineExceeded desc = context deadline exceeded", "endpoint": "discovery.talos.dev:443"} 10.0.0.16: user: warning: [2024-04-26T04:34:14.241894987Z]: [talos] hello failed {"component": "controller-runtime", "controller": "cluster.DiscoveryServiceController", "error": "rpc error: code = DeadlineExceeded desc = context deadline exceeded", "endpoint": "discovery.talos.dev:443"} 10.0.0.16: user: warning: [2024-04-26T04:34:15.962921987Z]: [talos] service[etcd](Running): Health check successful 10.0.0.16: kern: info: [2024-04-26T05:21:42.137402987Z]: r8169 0000:03:00.1 eth0: Link is Down |
In de switch log zie ik dit (debug logging staat al aan):
code:
1
2
3
| 4 Apr 26 2024 08:54:49 Warning STP-W-PORTSTATUS 1/1: STP status Forwarding 5 Apr 26 2024 08:54:44 Info LINK-I-Up 1/1 6 Apr 26 2024 08:54:41 Warning LINK-W-Down 1/1 |
Ik heb de volgende settings aan en uit gehad om te testen:
- flow control
- storm control
- link flap protection
Die laatste zou een port op suspended moeten zetten, maar dat gebeurd niet.
Ik heb ondertussen ook een support case geopend, wanneer ik niet binnen enkele dagen een oplossing vind kan ik de switch (helaas) terugsturen. Dat zou echt balen zijn want verder is het een geweldig apparaat eigenlijk!
Ik hoor het graag wanneer je weet wat er aan de hand zou kunnen zijn!
Alvast bedankt!