High Availability met Red Hat Advanced Server 2.1 - Serversoftware en clouddiensten

zondag 8 juni 2003 11:11

Acties:

Verwijderd

Topicstarter

Voor mijn werk is het de bedoeling dat we een high availability cluster gaan installeren. Dit i.v.m. de eis van mijn baas dat we niet afhankelijk mogen zijn van 1 enkele machine. We hebben hierop een database draaien (nu nog mysql maar liever iets anders in de toekomst) , een mailserver en een webserver.

De hardware configuratie is doorgesproken met Dell, waarbij we tot een oplossing zijn gekomen die bestaat uit twee Dell PowerEdge 2650 servers en een PowerVault 220S. Een SCSI based cluster dus, geen Fibre Channel.

Het punt is, de servers gaan draaien op Red Hat Advanced Server 2.1, die dus speciaal toegespitst is op clusters. In de whitepapers valt te lezen dat alle standaard applicaties als MySQL, Apache en SendMail in een high availability modus kunnen draaien. Mijn vraag is nu: wie heeft hier ervaring mee? Wat zijn de pluspunten en minpunten (tekortkomingen/bottlenecks) van een dergelijke configuratie? Wat zijn de punten waarop de software goed presteert en wat kan het bijvoorbeeld weer niet?

zondag 8 juni 2003 12:20

Acties:

elevator

Officieel moto fan :)

Wil je een active/active of een passive/active cluster hebben? Oftewel - wil je dat beide nodes tegelijkertijd "iets" doen (eg: node 1 doet db, node 2 doet webserving), of wil je dat 1 node alles doet en de andere staat te wachten tot de andere kapot gaat?

Overigens is dit volgens mij voor websites een vrij niet-standaard oplossing, en zou je misschien beter kunnen kijken naar replicatie van je database, en redundancy in je webservers. Zonder 'echte' clustering software.

zondag 8 juni 2003 12:47

Acties:

Verwijderd

Topicstarter

elevator schreef op 08 June 2003 @ 12:20:
Wil je een active/active of een passive/active cluster hebben? Oftewel - wil je dat beide nodes tegelijkertijd "iets" doen (eg: node 1 doet db, node 2 doet webserving), of wil je dat 1 node alles doet en de andere staat te wachten tot de andere kapot gaat?

Overigens is dit volgens mij voor websites een vrij niet-standaard oplossing, en zou je misschien beter kunnen kijken naar replicatie van je database, en redundancy in je webservers. Zonder 'echte' clustering software.

We wilden een active/passive cluster configuratie opstellen, zodat de ene de ander dus over neemt zodra er iets mis gaat.

Replicatie: leuk, maar over mysql (waar ik dus vanaf wil) en replicatie hoor ik over het algemeen te weinig positieve verhalen: betrouwbaarheid staat voorop. Nu hoor ik de meeste mensen wel denken, waarom koopt die jongen dan geen oracle software... te duur!

Replicatie en postgresql: out of the question, niet stabiel en niet in de stable branche geintegreerd, maar als een losse module, gebaseerd op een oude versie.

Bovendien zitten we nog met de emailserver. Een groot gedeelte van onze bedrijfsvoering (communicatie met klanten en dergelijke) is gebaseerd op email (ticketsysteem en dergelijke). De emailservices moeten dus altijd over dezelfde informatie beschikken...

Volgens Dell, waarbij ik dit probleem heb voorgelegd, was een twee node cluster op basis van SCSI shared storage de beste oplossing. Samen dus met Red Hat Advanced Server 2.1, omdat we al onze software voor Linux hebben geschreven. Bovendien zouden de licentiekosten ook de pan uit rijzen als we van Microsoft Windows producten gebruik zouden maken...

zondag 8 juni 2003 13:39

Acties:

elevator

Officieel moto fan :)

Verwijderd schreef op 08 June 2003 @ 12:47:
We wilden een active/passive cluster configuratie opstellen, zodat de ene de ander dus over neemt zodra er iets mis gaat.

Duur

SQL + email

nadeel is wel dat je een SPOF houd, en dat het ook nog eens minimaal gebruik is van resources. Als MySQL geen goede replicatie heeft, houdt het echter inderdaad wel een beetje op.

Volgens Dell, waarbij ik dit probleem heb voorgelegd, was een twee node cluster op basis van SCSI shared storage de beste oplossing. Samen dus met Red Hat Advanced Server 2.1, omdat we al onze software voor Linux hebben geschreven. Bovendien zouden de licentiekosten ook de pan uit rijzen als we van Microsoft Windows producten gebruik zouden maken...

Persoonlijk ben ik geen groot voorstander van DELL oplossingen, maar dat is voor iedereen anders en afhankelijk van de ervaring die iedereen ermee heeft

Waar je wel goed naar moet kijken is hoe je MySQL reageert als je je disken onder je DB uittrekt, en ze opnieuw probeert te starten. Dat is namelijk wat je doet als je een cluster met shared storage gebruikt.

zondag 8 juni 2003 14:19

Acties:

Verwijderd

Topicstarter

elevator schreef op 08 June 2003 @ 13:39:
[...]

Duur

[...]

nadeel is wel dat je een SPOF houd, en dat het ook nog eens minimaal gebruik is van resources. Als MySQL geen goede replicatie heeft, houdt het echter inderdaad wel een beetje op.

[...]

Persoonlijk ben ik geen groot voorstander van DELL oplossingen, maar dat is voor iedereen anders en afhankelijk van de ervaring die iedereen ermee heeft

Waar je wel goed naar moet kijken is hoe je MySQL reageert als je je disken onder je DB uittrekt, en ze opnieuw probeert te starten. Dat is namelijk wat je doet als je een cluster met shared storage gebruikt.

Qua prijs (duur?) het volgende. Als wij geen gebruik kunnen maken van onze systemen ligt de complete informatievoorziening plat. Bovendien, als je een sla afsluit met een leverancier van hardware kunnen de kosten ook redelijk hoog worden. In die situatie dat een tweede server met een aantal redundant opties (voeding, netwerk, schijven, geheugen) de kosten van een sla amper overschrijdt vind ik het persoonlijk gerechtvaardigd dat er een tweede machine als stand-by draait.

De SPOF is in deze inderdaad de PowerVault. De kosten wegen in deze echter niet op tegen de baten (je zou namelijk een fibre channel schijvenarray aan moeten sluiten en zowel de array als de hub/switch dubbel uit moeten voeren - €€€).

Het punt is echter: hoe zit het met de ervaringen met Red Hat Advanced Server 2.1 in een high availability cluster? Qua hardware ben ik redelijk overtuigd dat we de meeste problemen uit kunnen sluiten (op de PowerVault na dan). Ik ben vrij ervaren op het gebied van linux, maar 't is meer dat ik nu niet zelf kan testen zonder bergen geld uit te geven. Het gevaar schuilt dus meer in de hoek van dat we de boel aanschaffen maar dat de zaken niet doet wat het moet doen...

zondag 8 juni 2003 14:34

Acties:

elevator

Officieel moto fan :)

Verwijderd schreef op 08 June 2003 @ 14:19:
Qua prijs (duur?) het volgende. Als wij geen gebruik kunnen maken van onze systemen ligt de complete informatievoorziening plat. Bovendien, als je een sla afsluit met een leverancier van hardware kunnen de kosten ook redelijk hoog worden. In die situatie dat een tweede server met een aantal redundant opties (voeding, netwerk, schijven, geheugen) de kosten van een sla amper overschrijdt vind ik het persoonlijk gerechtvaardigd dat er een tweede machine als stand-by draait.

Natuurlijk kost het geld als je IT uitligt, maar lees ik hier nou goed dat je je door dit cluster te kopen, je geen hardware contract af gaat sluiten met je leverancier?
Als je echt voor HA wilt gaan, dan zal het niet redudant zijn van je cluster al een groot probleem moeten zijn, en je ook een SLA op je hardware moeten hebben.

De SPOF is in deze inderdaad de PowerVault. De kosten wegen in deze echter niet op tegen de baten (je zou namelijk een fibre channel schijvenarray aan moeten sluiten en zowel de array als de hub/switch dubbel uit moeten voeren - €€€).

Dat is idd een te hoge prijs - vandaar dat ik ook suggereerde dat je de oplossing zoekt in een niet (traditioneel) cluster, maar in een (voor websites) meer traditionele setup als replicatie van je DB en meerdere front-end webservers.

Het punt is echter: hoe zit het met de ervaringen met Red Hat Advanced Server 2.1 in een high availability cluster? Qua hardware ben ik redelijk overtuigd dat we de meeste problemen uit kunnen sluiten (op de PowerVault na dan). Ik ben vrij ervaren op het gebied van linux, maar 't is meer dat ik nu niet zelf kan testen zonder bergen geld uit te geven. Het gevaar schuilt dus meer in de hoek van dat we de boel aanschaffen maar dat de zaken niet doet wat het moet doen...

Ik kan je daar neits over vertellen - ik ken alleen clusters op Windows.

Wat je zowiezo moet testen is ofdat alles nog goed opkomt als je een unclean shutdown doet, en hoe snel dat dan terug op is. Oftewel - als jij je DB server fysiek afzet tijdens het werken, en je zet hem terug aan, is je DB dan weer terug op?

Verder zou je eventueel een test opstelling kunnen maken met iets als http://nbd.sourceforge.net/ of http://www.complang.tuwien.ac.at/reisner/drbd/. Kijk eens op www.linux-ha.org voor meer info over wat jij wil.

zondag 8 juni 2003 14:52

Acties:

Verwijderd

Topicstarter

elevator schreef op 08 juni 2003 @ 14:34:
[...]

Natuurlijk kost het geld als je IT uitligt, maar lees ik hier nou goed dat je je door dit cluster te kopen, je geen hardware contract af gaat sluiten met je leverancier?
Als je echt voor HA wilt gaan, dan zal het niet redudant zijn van je cluster al een groot probleem moeten zijn, en je ook een SLA op je hardware moeten hebben.

[...]

Dat is idd een te hoge prijs - vandaar dat ik ook suggereerde dat je de oplossing zoekt in een niet (traditioneel) cluster, maar in een (voor websites) meer traditionele setup als replicatie van je DB en meerdere front-end webservers.

[...]

Ik kan je daar neits over vertellen - ik ken alleen clusters op Windows.

Wat je zowiezo moet testen is ofdat alles nog goed opkomt als je een unclean shutdown doet, en hoe snel dat dan terug op is. Oftewel - als jij je DB server fysiek afzet tijdens het werken, en je zet hem terug aan, is je DB dan weer terug op?

Verder zou je eventueel een test opstelling kunnen maken met iets als http://nbd.sourceforge.net/ of http://www.complang.tuwien.ac.at/reisner/drbd/. Kijk eens op www.linux-ha.org voor meer info over wat jij wil.

Wat wij dus doen is wel een hardware sla afsluiten met de leverancier, maar niet een 24/7 contract. Hoewel tegenstrijdig, er wordt dus bezuinigd op de ondersteuning van de IT. Het niet redundant zijn van een high availability cluster doordat er een machine uitvalt is natuurlijk vervelend en strookt niet met het principe van high availability.

Mijn baas heeft echter een iets andere visie op het probleem, namelijk: Dell vervangt de kapotte spullen binnen een dag, in plaats van binnen 4 uur. Waarom zou hij dan ruim € 3.000 per machine moeten gaan uitgeven (voor het afsluiten van een SLA). Zoals je dus begrijpt: voor een dubbeltje (naja, iets meer dan) op de eerste rang zitten - het budget van ons wordt voornamelijk uitgegeven aan marketing.

Afzien van het cluster is inderdaad een mogelijkheid, mits er juiste alternatieven zijn. Voor zover ik dat nu bekijk, zijn die er niet. Want wat zijn de alternatieven:

1. twee machines installeren, zonder shared storage devices en gebruik maken van replicatie (voor email en db). De betrouwbaarheid van de database replicatie van mysql is niet overtuigend. Oracle's betrouwbaarheid is vrijwel 100%, maar qua kosten niet op te brengen (daar kunnen we zelfs een redundand fibre channel array voor kopen voor de shared storage).

Qua email zit je met het probleem dat je de mailboxen continu moet gaan kopieren. Efficient is anders en ik heb het idee dat je een extra probleempunt introduceert in je systeem.

De links die je vermeld heb ik allemaal al bekeken. De eerste twee links vermelden al dat het nog niet stabiel is, iets wat dus wel een vereiste is! Ik ben erg bang voor "in elkaar geknutselde oplossingen" (die vaak niet blijken te werken op het moment dat het dat wel zou moeten doen).

Linux HA kende ik al van een project op de universiteit twente (boekenbestelsysteem). Feitelijk werd alleen de ip aliasing gebruikt. Voor de rest werkte het systeem in combinatie met een PostgreSQL database, die nooit werd gerepliceerd omdat dat niet werkte. De tweede machine draaide dus puur als een ontwikkelmachine en het machinepark had niets te maken met een high availability cluster. Verder vind ik dat er weinig waardevolle informatie te vinden is op deze site (buiten een hoop gedateerde artikelen).

zondag 8 juni 2003 14:59

Acties:

elevator

Officieel moto fan :)

Verwijderd schreef op 08 June 2003 @ 14:52:
Wat wij dus doen is wel een hardware sla afsluiten met de leverancier, maar niet een 24/7 contract.

...

Mijn baas heeft echter een iets andere visie op het probleem, namelijk: Dell vervangt de kapotte spullen binnen een dag, in plaats van binnen 4 uur.

Ik ken het

Afzien van het cluster is inderdaad een mogelijkheid, mits er juiste alternatieven zijn. Voor zover ik dat nu bekijk, zijn die er niet. Want wat zijn de alternatieven:

1. twee machines installeren, zonder shared storage devices en gebruik maken van replicatie (voor email en db). De betrouwbaarheid van de database replicatie van mysql is niet overtuigend. Oracle's betrouwbaarheid is vrijwel 100%, maar qua kosten niet op te brengen (daar kunnen we zelfs een redundand fibre channel array voor kopen voor de shared storage).

Zijn er naast MySQL en Oracle geen alternatief voor replicatie?
* elevator is zelf niet zo thuis in db's maar zou denken dat dat er wel moet zijn

De links die je vermeld heb ik allemaal al bekeken. De eerste twee links vermelden al dat het nog niet stabiel is, iets wat dus wel een vereiste is! Ik ben erg bang voor "in elkaar geknutselde oplossingen" (die vaak niet blijken te werken op het moment dat het dat wel zou moeten doen).

Ik bedoel het ook niet als definiteive oplossing - maar meer als iets waarmee je een test opstelling zou kunnen creeeren om te kijken ofdat het gebruik van shared storage je oplossing is die je zoekt. Om vervolgens uiteraard alsnog een hardware matige oplossing aan te kopen.

zondag 8 juni 2003 19:08

Acties:

Verwijderd

Topicstarter

Ik heb nog eens goed rondgekeken en wat ik nu begrepen heb is dat Red Hat Advanced Server 2.1 niets meer is dan Red Hat Linux met daarbij het pakket Kimberlite van Mission Critical Linux. Aangezien dit mooi Open Source software is en er een uitgebreide manual bij zit waarin ook beschreven wordt hoe Apache en MySQL te configureren zijn.

Enfin, eerst maar eens een beetje budget gaan gebruiken om deze software uit te gaan testen alvorens we over gaan tot de daadwerkelijke aanschaf van de hardware. Ik zal de bevindingen hier wel neerzetten voor de geïnteresseerden onder jullie.

zondag 8 juni 2003 22:35

Acties:

Profidiam

Ellenface

Ik ben alleszinds geïnteresseerd, indien er anders geen verdere reply's zouden komen (wat ik eigenlijk wel betwijfel).

Bedankt en succes

Da RuBBaH DuCK SKWaT - Ellen what did ye do ?- een test

maandag 9 juni 2003 01:57

Acties:

Coen Rosdorff

Mail servers:
2 standalone smtp server die mail afleveren op de spool server
2 standalone pop3/imap servers die mail lezen uit de spool
(eventueel smtp + pop3 combineren)
1 netapp of gelijkwaardig product als spoolserver met een sla van een paar uur.

Webservers:
Dit is de makkelijkste, gewoon 2 standalone http servers met wat rsync werk. Wil je niet van rsync of iets dergelijks gebruik maken, dan kan je de netapp gebruiken als storage. (hangt een beetje van de hoeveelheid verkeer af)

Database:
Dit is relatief gezien de moeilijkste. Mysql is vrijlastig met failover. De database op shared storage leverd bijna gegarandeerd een corrupte database op als 1 server crashed. Met inno-db is dit wel enigsinds op te lossen, maar blijft gokken. Met replicatie is je integriteit van je data iig beter gewaarborgd.

Samenvatting:
4 goedkope piza dozen met weinig sla (2x smtp/pop3/imap en 2x http) + netapp met zeer goede sla. Met deze setup weinig spof, en waar je die wel hebt kan je die met een sla klein houden. XS4all leeft zo ongeveer bij de gratie van sla op hun netapp's
Mysql is in dit hele verhaal een naar ding.

maandag 9 juni 2003 09:46

Acties:

Verwijderd

Topicstarter

little_soundman schreef op 09 June 2003 @ 01:57:
Mail servers:
2 standalone smtp server die mail afleveren op de spool server
2 standalone pop3/imap servers die mail lezen uit de spool
(eventueel smtp + pop3 combineren)
1 netapp of gelijkwaardig product als spoolserver met een sla van een paar uur.

Webservers:
Dit is de makkelijkste, gewoon 2 standalone http servers met wat rsync werk. Wil je niet van rsync of iets dergelijks gebruik maken, dan kan je de netapp gebruiken als storage. (hangt een beetje van de hoeveelheid verkeer af)

Database:
Dit is relatief gezien de moeilijkste. Mysql is vrijlastig met failover. De database op shared storage leverd bijna gegarandeerd een corrupte database op als 1 server crashed. Met inno-db is dit wel enigsinds op te lossen, maar blijft gokken. Met replicatie is je integriteit van je data iig beter gewaarborgd.

Samenvatting:
4 goedkope piza dozen met weinig sla (2x smtp/pop3/imap en 2x http) + netapp met zeer goede sla. Met deze setup weinig spof, en waar je die wel hebt kan je die met een sla klein houden. XS4all leeft zo ongeveer bij de gratie van sla op hun netapp's
Mysql is in dit hele verhaal een naar ding.

Ik zie dat het al redelijk laat was toen je reageerde

... De hardware setup is in principe een vast gegeven. Het ging mij meer om de ervaringen met de Red Hat Advanced Server 2.1 distributie. De voorgestelde optie van jou is in grote lijnen ook gelijk aan wat wij willen schaffen.

Bovendien is de NetApp een NFS server, waar je, voor zover ik begrepen hebt, meer problemen mee kan krijgen m.b.t. locks op het filesystem dan een shared storage module op basis van SCSI (of fibre channel). Ook de kosten van een dergelijke doos is iets of wat buiten het budget

.

maandag 9 juni 2003 12:29

Acties:

Dromer

Ik dacht overigens dat Tweakers ook zijn databse op meerdere servers heeft staan?
Als er 1 server uitvalt dan werkt het nog toch ?
Als ik onzin roep, sorry, mysql is niet helemaal mijn ding

maandag 9 juni 2003 17:24

Acties:

Verwijderd

misschien interessant:
http://www.linux-magazine...23/RH_advanced_server.pdf

In hoeverre is IBM's DB2 voor Linux redundant?

Een vergelijkingje gemaakt door IBM tussen DB2 en Oracle http://www-3.ibm.com/software/data/highlights/rac.pdf

[ Voor 64% gewijzigd door Verwijderd op 09-06-2003 17:35 ]

maandag 9 juni 2003 20:12

Acties:

snoopy

Dromer schreef op 09 juni 2003 @ 12:29:
Ik dacht overigens dat Tweakers ook zijn databse op meerdere servers heeft staan?
Als er 1 server uitvalt dan werkt het nog toch ?
Als ik onzin roep, sorry, mysql is niet helemaal mijn ding

Nee, T.net beschikt wel over meerdere webservers, maar heeft in totaal maar 2 db-servers, 1 voor GoT en 1 voor T.net

_{Meer info : reviews: Tweakers.net serverpark}

dinsdag 10 juni 2003 09:07

Acties:

nielsj

ondertitel

hier hebben we 2 linux-ha database clusters draaien.
een cluster dmv oracle en replicatie met redologs
en het andere cluster is postgresql met zelf gemaakte replicatie scripts. postgres 7.3 is nog niet goed genoeg in onze optiek.

alles draaid naar (aardige) tevredenheid op dit moment.

blup blup

woensdag 11 juni 2003 16:07

Acties:

Verwijderd

Topicstarter

NielsJ, kan je misschien wat meer informatie geven over de configuraties en de gebruikte software?

Compukid, dank voor de links! Dat Advanced Server 2.1 spul van Red Hat komt er dus niet echt geweldig goed uit...

Helaas...

woensdag 11 juni 2003 21:30

Acties:

JMW761

Zoals eerder opgemerkt zit je met mysql die gek gaat doen als je array wordt overgenomen door de andere server, dat gaat ie niet trekken.
Daarom moet je misschien naar een distributed filesystem gaan kijken, ASF van IBM of Coda.
De powerfault voer je dan dubbel uit (maar die kan simpeler zijn). Je files staan altijd op twee plekken en zijn 100% gelijk.
De SLA kan dan veel minder uitgebreid worden.

Met Linux HA kun je je webserver/mailserver/dns/myslq frontends keurig up houden.

vrijdag 13 juni 2003 16:55

Acties:

nielsj

ondertitel

Verwijderd schreef op 11 June 2003 @ 16:07:
NielsJ, kan je misschien wat meer informatie geven over de configuraties en de gebruikte software?
...

we gebruiken hier kwa linux smaak debian, daarop voor de standby/actief failover systeemen,
http://www.linux-ha.org/ en http://www.linux-ha.org/download/

op de slave draait een cron script dat elke X minuten de master naar zich toe synced dmv rsync. tot dat de slave master wordt, dan stopt het syncen, om syncen de verkeerde kant op te voorkomen.
als een computer van slave naar master wordt, gaat ie alle services die de master draaid, bij hem opstarten.
service 1 het service ip adress, daarna bijvoorbeeld de webserver en dan klaar.

voor het failoveren van onze postgres database(s) wordt het zelfde principe gebruikt, echter op bijde systemen staat de database wel aan, en er loopt een script dat de master queried en de veranderde dingen toepast op de slave database.

dit is een handgescreven (perl) script, dat gebruik maakt van timestamp's die door de applicaties in de database worden bij gehouden. we hebben ook gekeken naar postgres replication (pg_replication / pg_mirror),voor de replicatie op basis van triggers, leverd extra problemen op. echte replicatie door postgres was naar onze smaak niet volwassen/mainstream genoeg om te gebruiken. volgens de mailings lists is mysql beter te laten repliceren.

replicatie met oracle 9 werkt dmv het oversturen van redo logs (ben de marketing naam vergeten

) als het eenmaal draait , gaat het als een speer

over de config van de hearbeats:
ik geef in de ha.cf aan welke systemen een node zijn van het ha-systeem

node computer1
node computer2

verder hoe en over welke interface de machines met elkaar moeten communiceren

udp eth0

en in de /etc/haresources
computer1 IPaddr.ip::127.0.0.1 proftpd state (ip adres is in het echt anders

)

zo vertel ik dat computer1 master is van de 3 services (ip,service en state)
state is een scriptje dat in /etc/ha-status verteld of ie master is of slave.
als ik inlog staat de inhoud van dat file namelijk in m'n prompt, en dat is wel zo handig.

(zonder echt op te willen scheppen) hier op m'n werk, hebben we 8 services (16 computers) met heartbeat in ha draaien, dingen die er opdraaien zijn: webserver,database server,ftpserver,firewall. dus hier geld het als proven technology.

ik hoop dat je wat aan dit verhaal hebt,

blup blup