Blades: kan spof enclosure failure ?*

Pagina: 1
Acties:
  • 389 views sinds 30-01-2008
  • Reageer

  • TheBrain
  • Registratie: Oktober 2000
  • Niet online
Bij mijn nieuwe klant gaan ze een partij servers virtualiseren naar HP of SUN blades (HP is waarschijnlijker). Nu is in het design zo ongeveer alles redundant uitgevoerd, behalve op het gebied van de blade enclosures zelf.

In de enclosure komt weliswaar een N+N power supply setup en ook de netwerkkaarten en fiber HBA's komen dubbel op de blades te zitten maar ik vraag me dus af wat de kans is op een enclosure failure zelf (midplane die eruit klapt o.i.d.). Als die enclosure namelijk uit zou vallen dan dient er meteen een uitwijkscenario naar een ander datacenter in werking te treden in plaats van dat HA de machines naar een ander blade chassis op dezelfde lokatie kan verplaatsen.

  • hstuivenberg
  • Registratie: November 2005
  • Laatst online: 09-02 10:07
Tja , wat is de kans. Moeilijk te voorspellen natuurlijk, want het blijft hardware. En hardware kan kapot.

Het ligt aan de requirements van de opdrachtgever en aan de beschikbare financieen.
Als je bij voorbaat weet dat er geen downtime acceptabel is voor de machines, en het budget van het project laat het toe, ja dan zou ik ook een tweede chassis op een andere locatie neerzetten.

Met iets van vmotion voor vmware of xenmotion kan je gemakkelijk je virtuele machines naar een andere fysieke server laten uitwijken, zonder een seconde downtime.

[ Voor 17% gewijzigd door hstuivenberg op 06-10-2007 12:24 ]


  • wagenveld
  • Registratie: Februari 2002
  • Niet online
Die midplane is puur een printplaat met alle verbindingslijntjes, speciaal opgehangen om evt verbuigingen te voorkomen. Kans dat daar storing in optreedt is echt minimaal.

  • Acmosa
  • Registratie: Januari 2001
  • Laatst online: 29-12-2025

Acmosa

...no comment.

wagenveld schreef op zaterdag 06 oktober 2007 @ 12:53:
Die midplane is puur een printplaat met alle verbindingslijntjes, speciaal opgehangen om evt verbuigingen te voorkomen. Kans dat daar storing in optreedt is echt minimaal.
Dit is waar in het geval van de HP c7000 enclosure, voor het SUN enclosure zal dit misschien ook zijn maar durf ik niet zo stellig te stellen.
HP maakt veel herrie over het feit dat alle actieve componenten uit de midplane gehaald zijn in tegenstelling tot hun vorige p-Classe enclosure.
Denk bij een HP enclosure ook aan virtual connects, deze geven je meer flexibiliteit bij aanpassingen in je server omgeving.

But then again, I could be wrong..


  • Question Mark
  • Registratie: Mei 2003
  • Nu online

Question Mark

Moderator SSC/WOS

F7 - Nee - Ja

hstuivenberg schreef op zaterdag 06 oktober 2007 @ 12:22:
Met iets van vmotion voor vmware of xenmotion kan je gemakkelijk je virtuele machines naar een andere fysieke server laten uitwijken, zonder een seconde downtime.
VMotion is leuk voor geplande uitwijken, meer niet.

Als een blade-enclosure failed, waardoor alle blades binnen deze enclosure "down" gaan is er echt wel downtime. Alle VM's die op de blades draaien zijn immers pas weer UP nadat deze gestart zijn op een nog wel functionerende blade.

MCSE NT4/2K/2K3, MCTS, MCITP, CCA, CCEA, CCEE, CCIA, CCNA, CCDA, CCNP, CCDP, VCP, CEH + zwemdiploma A & B


  • hstuivenberg
  • Registratie: November 2005
  • Laatst online: 09-02 10:07
Question Mark schreef op zondag 07 oktober 2007 @ 12:28:
[...]
VMotion is leuk voor geplande uitwijken, meer niet.

Als een blade-enclosure failed, waardoor alle blades binnen deze enclosure "down" gaan is er echt wel downtime. Alle VM's die op de blades draaien zijn immers pas weer UP nadat deze gestart zijn op een nog wel functionerende blade.
True :)

  • bazkar
  • Registratie: Juni 2001
  • Laatst online: 05-02 12:59
De enige manier om 0% downtime te garanderen is en blijft met cluster-achtige technologie werken.
Twee of meer identieke servers (al dan niet virtueel en/of op identieke hardware) die samen 1 cluster in de lucht houden. Deze wil je uiteraard liefst ook fysiek gescheiden houden

Helaas moeten je applicaties dan wel cluster-aware zijn en dat verschilt per applicatie. Ook het feit of ze kunnen load balancen is uiteraard van belang. De meeste managers zitten niet te wachten op tienduizenden euro's aan apparatuur die uit hun neus eet omdat er niks mis gaat.

Als een aantal minuutjes downtime wel mag dan is een backup op een 2e locatie booten (virtueel of fysiek) in case of disaster ook mogelijk, en dit kan vrijwel met alle typen software/hardware. Virtueel is dan uiteraard wel het goedkoopst ivm het feit dat de hardware waar virtuele machines op draaien niet nutteloos in een rack hoeft te hangen.

[ Voor 43% gewijzigd door bazkar op 08-10-2007 10:24 ]


Verwijderd

TheBrain schreef op zaterdag 06 oktober 2007 @ 12:18:
Bij mijn nieuwe klant gaan ze een partij servers virtualiseren naar HP of SUN blades (HP is waarschijnlijker). Nu is in het design zo ongeveer alles redundant uitgevoerd, behalve op het gebied van de blade enclosures zelf.

In de enclosure komt weliswaar een N+N power supply setup en ook de netwerkkaarten en fiber HBA's komen dubbel op de blades te zitten maar ik vraag me dus af wat de kans is op een enclosure failure zelf (midplane die eruit klapt o.i.d.). Als die enclosure namelijk uit zou vallen dan dient er meteen een uitwijkscenario naar een ander datacenter in werking te treden in plaats van dat HA de machines naar een ander blade chassis op dezelfde lokatie kan verplaatsen.
IBM maakt ook BladeCenters, en die hebben zelfs een redundant midplane >:)

  • Asteroid9
  • Registratie: Maart 2002
  • Laatst online: 12:52

Asteroid9

General Failure

bazkar schreef op maandag 08 oktober 2007 @ 10:20:

Helaas moeten je applicaties dan wel cluster-aware zijn en dat verschilt per applicatie. Ook het feit of ze kunnen load balancen is uiteraard van belang. De meeste managers zitten niet te wachten op tienduizenden euro's aan apparatuur die uit hun neus eet omdat er niks mis gaat.
Daar kun je nog wel eens leuk over discussieren.
Als een active/active cluster onderuit gaat klapt ineens ook 50% van je capaciteit weg...

Indien dat geen problemen oplevert waren je servers al overbemeten, wat ook een vorm van verspilling is.
Als het wel problemen geeft had je een zwaarder cluster neer moeten zetten, en is er misschien wel op de verkeerde zaken bezuinigd.
Heb je een cluster, heb je nog steeds problemen als er een node down gaat gaat, scoor je ook geen punten mee.

Bij active/passive heb je dat probleem niet, maar op papier lijkt het wel duurder ja, beetje goede manager weet daar echter wel doorheen te prikken.

Bij clusters van meer dan 2 servers krijg je wat andere statistieken, maar de discussie blijft.

- = Simpele oplossingen zijn vaak vermomd als schier onoplosbare problemen.... = -


  • Equator
  • Registratie: April 2001
  • Laatst online: 09-02 07:08

Equator

Crew Council

#whisky #barista

Title Change: Ik neem aan dat je spof (Sngle Point Of Failure) bedoelde :)

Verwijderd

Ja, je hebt in een blade-enclosure inderdaad een SPOF en dat is voor ons de reden geweest om niet eens meer naar blades te kijken voor ons virtualisatieproject, maar te kiezen voor 3 dikke rackservers. (Dit werd ons aangeraden door een een verkoper en techneut van een hele grote hardwareleverancier, terwijl hij de opdracht had veel blades te verkopen)

Pas als je meerdere blade-enclosures hebt heb je die SPOF niet meer. De voordelen van blades komen ook pas goed tot z'n recht als je grote aantallen nodig hebt of dure huurruimte.

Als je trouwens blades neemt voor de energiebesparing, zorg dan wel dat er ddr2 in gaat ip van het extreem dorstige FBdimm. Dit geheugen zuipt 4-7 maal zoveel als ddr2 en in een server gaat regelmatig een flinke mep, zeker met virtualiseren.

  • TheBrain
  • Registratie: Oktober 2000
  • Niet online
Equator schreef op woensdag 10 oktober 2007 @ 07:15:
Title Change: Ik neem aan dat je spof (Sngle Point Of Failure) bedoelde :)
Hehe, het was me nog niet opgevallen. Ik bedoelde "Kans op enclosure failure" :)

Uit de reacties maak ik op dat die kans er wel is maar bijvoorbeeld met de c7000 zou dan de passieve midplane moeten uitvallen en de kans dat dat gebeurt is dusdanig klein dat dat niet opweegt tegen de extra investering noodzakelijk om alle enclosures dubbel uit te voeren.

Replicatie van de kritieke machines naar datacenter 2 gecombineerd met (VMWare) HA functionaliteit is dan voldoende om het met de business afgesproken SLA te halen.

Overigens maakt men op de blades (BL480c) gebruik van een enkele dubbel poorts HBA en daar ben ik dan weer niet zo gelukkig mee. De HBA failures die ik zelf gezien heb betroffen bijna altijd de kaart en niet een van de poorten.

[ Voor 13% gewijzigd door TheBrain op 12-10-2007 20:55 ]


  • Asteroid9
  • Registratie: Maart 2002
  • Laatst online: 12:52

Asteroid9

General Failure

QLA 2342 toevallig? ;)

Die hebben wij alleen in servers waar we anders te weinig PCI slots hebben...
Gelukkig zijn die FC HBA's tegenwoordig enigszins betaalbaar, dat was een paar jaar geleden wel anders!

- = Simpele oplossingen zijn vaak vermomd als schier onoplosbare problemen.... = -

Pagina: 1