Als ik even mag inpikken. Ik beheer een paar Ceph clusters. Op het werk en thuis. Ik ben erg enthousiast over Ceph en vind het erg cool dat je'r warm voor loopt, kudos

. Maar toch heb ik heel wat bedenkingen die ik ff wil delen. Ceph heeft heel wat valkuilen.
Ten eerste al omdat het hier over zuinige server gaat. Als je kijkt naar hoeveel performantie je krijgt voor X-aantal watts dat je erin stopt, scoort Ceph belachelijk slecht. Je zou het kunnen vergelijken met zo zuinig mogelijk van punt A naar punt B te willen gaan en zien of je dat met een tank ook kan. Als een RPI + schijf een fiets is, een enterprise server een wagen, dan is Ceph een tank

. Hoe je die tank ook gaat modden, dat ga je nooit echt zuinig krijgen of zoveel compromissen moeten sluiten dat het niet meer werkbaar wordt (lees: heel erg trage Ceph cluster). OK, Jeff Geerling heeft een youtube video over een Ceph cluster op RPI's. Maar echt gelukkig ga je waarschijnlijk niet worden van hoe die performt
<edit>Ja je kan Ceph ook op 1 node draaien. Dan wordt het wel wat zuiniger, maar dan ga je wel voorbij aan de filosofie van geen SPOFs</edit>
Los van performantie en meer naar betrouwbaarheid: 3 nodes is het absolute minimum als je een host failure wil kunnen overleven. 4 kan een host failure overleven EN self healen mits je genoeg fail over capaciteit hebt (fill rate van de cluster).
Nog een opmerking: als je toch nog Ceph wil gaan heb je ook echt Enterprise grade SSDs nodig die PLP aan boord hebben. Het verschil in performantie is groter dan je denkt. Networking niet te vergeten: 10Gbit wordt minimaal aangeraden, wat niet meteen zuinig is. Met 1Gbit, haal je max ~30MBps doorvoer, om dan nog te zwijgen over consumer grade block devices (HDDs/SSDs) die die al schamele 30MBps geen goed gaan doen. Als je deze raadgevingen in de wind slaat, ga je het gevoel hebben dat jouw Ceph clutser op HDDs draait, ook al draai je op de nieuwste en snelste (consumer grade) NVMes (I kid you not, it'll suck big time

) .
Kwestie van hoge beschikbaarheid, dat staat hoog in de prioriteitenlijst, maar data integriteit is de enige top-prioriteit van Ceph. Als de cluster denkt dat die integriteit in het gedrang kan komen, maakt het de geaffecteerde data niet meer beschikbaar voor IO (lezen of schrijven), tot het betreffende probleem opgelost is. De kans dat er ooit iets in jouw cluster gebeurt waar Ceph niet blij van wordt, is heel erg groot. Dan gooit Ceph de boel plat. Begin dan maar te zoeken waarom

.
Misschien een ideetje zou zijn als je een proxmox server zou hebben met genoeg RAM om 3 mini VMs op te zetten en daarop Ceph installeren en zien of het je bevalt.
Ik snap helemaal jouw enthousiasme en kan er alleen maar blij om zijn (you brave soul

) , maar vergeet niet dat Ceph heel veel knopjes en radertjes heeft waar ondergetekende ook vaak mee worstelt. Ceph is no joke, en als newbie zou ik er mijn belangrijke data niet aan toevertrouwen zonder backup. Er zijn teveel valkuilen waar je in kan trappen.
En vooral, ik weet niet goed waarom Ceph vernoemd wordt in "Het grote zuinige server topic". Ceph just isn't that