[NFS+HAProxy] Werkt niet, maar waarom?

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • DieterVDW
  • Registratie: Juli 2002
  • Laatst online: 12-02-2017
Hallo,

Ik ben aan het experimenteren met een setup van NFSv4 over TCP icm. HAProxy (loadbalancing software).

HAProxy werkt heel eenvoudig: de client maakt een connectie met de loadbalancer, en deze forward de connectie naar 1 van de 'echte' servers.
In theorie zou dit moeten compatibel zijn met NFSv4 over TCP: de NFS client connecteert met de loadbalancer, en deze forward de connectie naar 1 van de beschikbare NFS servers.

Concreet heb ik 2 NFS servers, een master en een slave server. Ik heb HAProxy zo ingesteld dat de master server altijd gebruikt wordt. Deze situatie is in feite hetzelfde als wanneer de NFS client rechtstreekt met de master NFS server zou verbinden, met het enige verschil dat HAProxy 'man-in-the-middle' is en de connectie forward. Merk op dat deze rol in feite niet echt verschilt van deze van een router, en NFSv4 over TCP zou moeten compatibel zijn met routing.

In de praktijk werkt dit, maar de NFS client hangt na een tijdje (uren).
De NFS client kan dus perfect verbinden met de HAProxy server, die de connectie forward naar de master. De NFS client werkt perfect, en ik zie de share vanop de master.
Zelfs de failover werkt: Als ik de HAProxy zo instel dat alle nieuwe connecties naar de slave gaan (waar dezelfde data geëxporteerd wordt), en op de client unmount en opnieuw mount, dan werkt alles vlotjes verder met de slave als server.

Het enige probleem met deze setup is dat de NFS client na enkele uren soms gewoon vastloopt.
(Uninterruptible processes...)
En dit kan ik niet meteen verklaren...

Mogelijk 1 of andere instelling in HAProxy die niet compatibel is met NFS?
Iemand die hier advies kan over geven?

Over het praktisch nut hiervan kan gediscussiëerd worden, maar dit is niet de bedoeling.
Ik zou gewoon graag begrijpen welk zijeffect HAProxy introduceert waardoor NFS gaat vastlopen.

Acties:
  • 0 Henk 'm!

  • CyBeR
  • Registratie: September 2001
  • Niet online

CyBeR

💩

Is dat na een paar uur activiteit of na radiostilte? In dat laatste geval kan 'ie gewoon de connection timeouten en wegknikkeren uit z'n tabel.

All my posts are provided as-is. They come with NO WARRANTY at all.


Acties:
  • 0 Henk 'm!

  • DieterVDW
  • Registratie: Juli 2002
  • Laatst online: 12-02-2017
CyBeR schreef op woensdag 14 april 2010 @ 02:18:
Is dat na een paar uur activiteit of na radiostilte? In dat laatste geval kan 'ie gewoon de connection timeouten en wegknikkeren uit z'n tabel.
Activiteit vreemd genoeg. Ik heb hier een scriptje draaien dat elke seconde een ls doet op een random directory op de geimporteerde NFS share. (Geen idee of caching misschien een issue kan zijn en toch tot een timeout leiden echter? Het zijn wel 7000+ directories.)

Na een paar uur blokkeert de boel plots. Het vreemde is dat 'm ook wel lijkt te recoveren. Ik heb deze setup vannacht laten draaien en gisterenavond kreeg ik melding dat alles weer geblokkeerd zat. Maar deze ochtend werkte alles weer vlotjes. Volgens de monitoring heeft de panne 6+ uur geduurd. Nogal lang om te recoveren vind ik wel ...

Zonder HAProxy als man-in-the-middle werkt alles vlotjes. HAProxy is bijna zeker de schuldige, maar waarom...?