[VMware] Fiber Channel storage adapter blijft offline

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • Burning Flame
  • Registratie: Juni 2013
  • Laatst online: 14:50
Recentelijk hebben we op mijn werk een nieuwe virtualisatie setup aangeschaft, waarbij we drie Dell PowerEdge FC640 nodes in een Dell FX2 chassis hebben genomen. De storage oplossing is een Dell EMC SC5020 geworden.

De storage zou via Fiber Channel (over Ethernet) gekoppeld dienen te worden aan de ESX nodes, maar vooralsnog zonder succes. Er is bij VMware en bij Dell vanuit het Pro Deploy team al een ticket aangemaakt, maar een oplossing blijft nog uit. Omdat ik het toch een vrij interessante uitdaging vind wilde ik als long time lurker toch eens hier posten of iemand wellicht een gouden tip heeft.

De huidige situatie is dat twee nodes een verse ESXi 6.7 Update 3 (via de Dell image) installatie gekregen hebben. Daarbij hebben we een 6.7 vCenter Appliance geïnstalleerd op een aparte NFS share.

In de bios van beide nodes hebben we op vmnic0 en vmnic1 via network partitioning FCoE ingeschakeld. Binnen ESX vinden we ook de (offline) hardware adapters die gekoppeld zijn aan deze interfaces:

vmhba65 qfle3f            link-down fcoe.2000004e01120560:2001004e01120560  () QLogic Corporation FCoE Adapter
vmhba67 qfle3f            link-down fcoe.2000004e011206db:2001004e011206db  () QLogic Corporation FCoE Adapter

vmhba65
   Source MAC: 00:4e:01:12:05:5e
   FCF MAC: 00:00:00:00:00:00
   VNPort MAC: 00:00:00:00:00:00
   Physical NIC: vmnic0
   User Priority: 3
   VLAN id: 0
   VN2VN Mode Enabled: false

vmhba67
   Source MAC: 00:4e:01:12:05:61
   FCF MAC: 00:00:00:00:00:00
   VNPort MAC: 00:00:00:00:00:00
   Physical NIC: vmnic1
   User Priority: 3
   VLAN id: 0
   VN2VN Mode Enabled: false


Wat mij opviel is dat hier data ontbreekt, zoals het VLAN id en de MAC adressen. Een blik in de vmkernel.log gaf al wel de volgende vermeldingen:

2020-01-29T14:58:05.786Z cpu0:2098106)ql_fcoe:vmhba65:ql_fcoe_parse_disc_resp:616:Info: Unsolicted FIP advertisement from 10:00:68:4f:64:99:85:06-17 VLAN 17
2020-01-29T14:58:07.538Z cpu0:2098106)ql_fcoe:vmhba67:ql_fcoe_parse_disc_resp:616:Info: Unsolicted FIP advertisement from 10:00:68:4f:64:99:83:86-18 VLAN 18


Tevens is de firmware van de adapter up-to-date:
input file: /usr/lib/vmware/vmkmod/qfle3f
 Version: 1.0.68.0-1OEM.670.0.0.8169922


Aan de kant van de switches lijkt alles in orde te zijn. Deze switches zijn overigens onderdeel van het chassis en betreffen een FN2210S, welke aan "de buitenkant" 4 poorten hebben. Twee daarvan worden momenteel als uplink naar onze core switches gebruikt en twee zijn dedicated Fiber Channel poorten.

De storage oplossing is op deze twee Fiber Channel poorten aangesloten en is ook zichtbaar, maar hier is al te zien dat de ESX nodes niet naar voren komen:

show fc ns switch brief

Total number of devices =    4

Intf#        Domain    FC-ID        Enode-WWPN          Enode-WWNN

Fc 0/9       2         02:09:00    50:00:d3:10:05:a7:6a:05      50:00:d3:10:05:a7:6a:00
Fc 0/9       2         02:09:01    50:00:d3:10:05:a7:6a:2b      50:00:d3:10:05:a7:6a:01
Fc 0/10      2         02:0a:00    50:00:d3:10:05:a7:6a:17      50:00:d3:10:05:a7:6a:00
Fc 0/10      2         02:0a:01    50:00:d3:10:05:a7:6a:2c      50:00:d3:10:05:a7:6a:02


Intern hebben beide switches 8 poorten, waarvan er telkens 2 gekoppeld zijn aan elke ESX node in het chassis. Per switch hebben we dus voor elke node één poort dedicated voor Fiber Channel / storage verkeer en één poort voor regulier netwerk verkeer. De juiste poorten hebben we via wwn zoning / FCoE mapping geconfigureerd. Hieronder voor de volledigheid (in het kader van liever teveel informatie dan te weinig) even wat snippets van de configuratie:

interface TenGigabitEthernet 0/3
 description BLADE2-VMNIC1
 no ip address
 mtu 12000
 portmode hybrid
 switchport
 flowcontrol rx on tx off
 spanning-tree mstp edge-port bpduguard
 spanning-tree rstp edge-port bpduguard
 spanning-tree 0 portfast bpduguard
 spanning-tree pvst edge-port bpduguard
 fcoe-map SAN_FABRIC_A2
 dcb-map SAN_DCB_MAP_A2
 no shutdown
!

..

fc zoneset zoneset1
 member blade2-vmnic1
 member blade3-vmnic1
 member physical_ports1
 member virtual_ports1
!
fcoe-map SAN_FABRIC_A2
 fc-map 0efc02
 fabric-id 18 vlan 18
!
 fc-fabric
  active-zoneset zoneset1
!

..

dcb-map FLEXIO_DCB_MAP_PFC_OFF
 no pfc mode on
!
dcb-map SAN_DCB_MAP_A2
 priority-group 0 bandwidth 50 pfc off
 priority-group 1 bandwidth 50 pfc on
 priority-pgid 0 0 0 1 0 0 0 0
!


De desbetreffende interfaces zijn volledig up:

show interfaces tengigabitethernet 0/3 status
Port                 Description  Status Speed        Duplex Vlan
Te 0/3               BLADE2-VMNI  Up     10000 Mbit   Full   1,18


Echter blijven de storage adapters offline. Alhoewel het volgens de documentatie niet nodig zou moeten zijn, hebben we op een gegeven moment wel een vSwitch aangemaakt en daar de interfaces aan gekoppeld met het juiste VLAN ID. Op de switch hebben we binnen dat VLAN een IP geconfigureerd, waarna we prima heen en weer konden pingen. De adapters bleven echter ook toen offline :-(

Tussen de verschillende wijzigingen door hebben we overigens de nodige rescans gedaan op de adapters en soms ook gewoon volledige reboots van de nodes.

Zelf heb ik het idee dat we een (configuratie) stap aan de kant van de ESX nodes missen, maar wellicht is het toch een dingetje op de switches. Concreet hoop ik stiekem op een gouden tip in de juiste richting, want wellicht kijken wij hier gewoon allemaal over iets kleins heen.

Burn baby burn

Alle reacties


Acties:
  • 0 Henk 'm!

  • paulhekje
  • Registratie: Maart 2001
  • Laatst online: 12-10 12:35
snelste manier om aan te tonen of het een switch-probleem is of een vSphere-probleem, is denk ik tijdelijk een ander OS installeren.
Als een andere OS wel wil=>vSPhere
Als ander OS ook niet wil =>switch,fcoe-adapter of kabelprobleem.
Van de switch-config heb ik niet zoveel verstand, maar klopt je spanning tree config?
Op storage netwerken wordt dit vaak disabled.

[ Voor 22% gewijzigd door paulhekje op 31-01-2020 09:55 ]

|=|=|=||=|=|=||=|=|=| http://www.vanwijck.com |=|=|=||=|=|=||=|=|=||=|=|=||=|=|=||=|=|=||=|=|=|


Acties:
  • 0 Henk 'm!

  • Burning Flame
  • Registratie: Juni 2013
  • Laatst online: 14:50
paulhekje schreef op vrijdag 31 januari 2020 @ 09:53:
snelste manier om aan te tonen of het een switch-probleem is of een vSphere-probleem, is denk ik tijdelijk een ander OS installeren.
Als een andere OS wel wil=>vSPhere
Als ander OS ook niet wil =>switch,fcoe-adapter of kabelprobleem.
Van de switch-config heb ik niet zoveel verstand, maar klopt je spanning tree config?
Op storage netwerken wordt dit vaak disabled.
Ik wilde nog een update posten, maar door drukte was het er nog niet van gekomen. Een aantal dingen hebben we al geprobeerd, waaronder het installeren van een ander OS, het vervangen van de FCoE adapter en verschillende firmware versies (waaronder de meest recente en wat oudere) van de switch en de adapter en van de drivers van de adapter in ESXi.

Ook zijn we in contact gekomen met het networking team van Dell, die de switch configuratie nagelopen hebben met ons. Deze is volgens hun helemaal in orde. Spanning tree hebben we inderdaad later nog uitgeschakeld op de desbetreffende poorten. Zij gaven aan een setup identiek aan de onze in te gaan richten om de problemen te reproduceren.

Het lijkt erop dat het fcoe initialization protocol niet getriggerd wordt en dan neigen ook wij naar een probleem in de switch of de adapter of wellicht een compatibiliteit issue tussen beiden. Lijkt me vreemd, maar ik durf het nu niet meer uit te sluiten.

Na het weekend hebben we in ieder geval opnieuw contact met het networking team en hoop ik dat ze meer informatie hebben vanuit de setup die zij daar aan het inrichten zijn. Update volgt dan ook nog!

Burn baby burn


Acties:
  • 0 Henk 'm!

  • Vorkie
  • Registratie: September 2001
  • Niet online
@Burning Flame
https://kb.vmware.com/s/article/2120523

Je krijgt iets binnen op VLAN17 & 18 toch? En ik zie VLAN 1 & 18 op VMNIC1, wat op een trunk lijkt i.p.v. access port.

Hoe staat op blade 3 interface Te0/3 ingesteld?

Acties:
  • 0 Henk 'm!

  • Burning Flame
  • Registratie: Juni 2013
  • Laatst online: 14:50
Op het moment krijgen we inderdaad verkeer binnen over de gedefinieerde VLAN's (momenteel 100 en 18):

2020-02-03T09:34:33.516Z cpu27:2098203)ql_fcoe:vmhba64:ql_fcoe_parse_disc_resp:616:Info: Unsolicted FIP advertisement from 10:00:68:4f:64:99:85:06-100 VLAN 100

2020-02-03T09:34:36.690Z cpu27:2098203)ql_fcoe:vmhba65:ql_fcoe_parse_disc_resp:616:Info: Unsolicted FIP advertisement from 10:00:68:4f:64:99:83:86-18 VLAN 18


Binnen ESX hebben we op de desbetreffende blade nu de poorten geconfigureerd in een vSwitch met het juiste VLAN ID, maar nog zonder resultaat.

Ik verwacht in de loop van vandaag nog even met Dell en VMware contact te hebben hierover :)

Burn baby burn


Acties:
  • +2 Henk 'm!

  • Burning Flame
  • Registratie: Juni 2013
  • Laatst online: 14:50
@paulhekje @Vorkie , thanks nog voor het meedenken beiden

Zojuist heb ik opnieuw contact gehad met het networking team van Dell. Zij hebben aan de hand van de setup die ze daar ingericht hebben het probleem verder kunnen onderzoeken en de oplossing gevonden.

Wat bleek? Op de poorten was flow control expliciet ingeschakeld. Voor FCoE is echter DCB nodig, zodat de adapter de juiste instellingen op kan vragen (en dus onder andere zichzelf in de juiste VLAN configureert). (Priority) flow control is echter ingebakken in DCB en als flow control daarnaast ingeschakeld wordt, zal DCB uitgeschakeld worden.

De oplossing was dus het uitschakelen van flow control en opnieuw inschakelen van DCB, waarna de adapters de juiste instellingen kregen en ingeschakeld werden. Succes dus!

Burn baby burn


Acties:
  • +1 Henk 'm!

  • paulhekje
  • Registratie: Maart 2001
  • Laatst online: 12-10 12:35
Goed om te horen dat het is opgelost!

|=|=|=||=|=|=||=|=|=| http://www.vanwijck.com |=|=|=||=|=|=||=|=|=||=|=|=||=|=|=||=|=|=||=|=|=|

Pagina: 1