RAID5 binnen half jaar 2 defecte disks. Pech of niet?

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • olav_boz
  • Registratie: Juli 2008
  • Laatst online: 09:50
Ff het volgende voorleggen aan de mensen die er waarschijnlijk meer verstand van/ervaring mee hebben dan ik:

Ik kocht in maart een Synology CS407 NAS met 4 disks in RAID5 opstelling (4 x 750GB Western Digital WD7500AAKS voor de belangstellenden). In mei, twee maandjes later, gaf disk 2 de geest. Door drukte (en algemene domheid) ben ik vergeten de disk te vervangen en heb dus gewoon doorgedraaid. Vorige week (eind september) hield disk 3 er mee op, waardoor ik nu zit met een onbenaderbaar RAID5 volume. Van de belangrijkste data heb ik backups, dus de ramp is te overzien.

Nu ben ik eens gaan rekenen en kom tot de conclusie dat ik een zeldzaam pechgeval ben. Onderbouwing in de vorm van een aangepaste quote van mijn eigen threadje op http://synology.nl/forum/viewtopic.php?f=25&t=2162:
Uitgaande van de startsituatie (werkende RAID5 set met 4 disks) gaat het fout als er 2 disks stuk gaan binnen een bepaalde tijdsperiode. De kans op 1 defecte schijf is 4 x hoger dan wanneer je maar 1 disk hebt. De kans echter dat er 2 disks stuk gaan in diezelfde periode is (kans op 1 defecte disk) x (kans op 1 defecte disk) = erg laag.

Rekenvoorbeeld: stel dat de kans dat een disk defect raakt binnen 1 jaar 2% is. Met 4 disks heb je dan 4 x 2% = 8% kans dat 1 van de 4 disks defect raakt. De kans dat 2 van de 4 schijven stuk gaan is 8% x 8% = 0,64%. Oftwel: heel klein. In ieder geval veel kleiner dan wanneer je maar 1 disk hebt, namelijk 0,64% versus 2%. Maak je een nieuwe calculatie op het moment dat de 1e disk het begeeft, dan is de kans juist ineens hoger dan in een situatie met maar 1 disk, namelijk 3 x 2% = 8% versus 2%.

Had ik dus onmiddellijk die defecte disk moeten vervangen? Ja, natuurlijk had ik dat moeten doen. Het is niet slim geweest om gewoon door te draaien omdat ik vanaf het 1e defect een sterk verhoogd risico liep. Maar dat neemt niet weg dat het falen van een RAID5 opstelling binnen enkele maanden na aanschaf volgens mij een typisch geval is van heel veel pech.
Het gaat mij er niet om een beschuldigende vinger richting Synology, WD, de winkel of wie dan ook te wijzen. Ikzelf ben verantwoordelijk voor mijn data en zeker toen de 1e disk defect raakte had ik beter moeten weten.

Wat ik me echter afvraag is of mijn redenatie c.q. kansberekening klopt. Ben ik nu wel of geen pechvogel? En heeft er iemand anders wel eens een falende RAID5 meegemaakt? Ik zelf in ieder geval niet eerder, en ik heb er hier 3 draaien waarvan de oudste alweer sinds 2000 z'n rondjes draait...

Acties:
  • 0 Henk 'm!

  • ronny
  • Registratie: Februari 2001
  • Laatst online: 16-02-2024

ronny

Trotse vader

Het is natuurlijk een beetje moeilijk om zo te zeggen of je wel of niet pech hebt gehad.
Als ik het mij helemaal goed voor de geest kan halen kloppen de statischtische berekening niet helemaal. Maar veel zal er niet aan schelen.
Tevens zit er een klein foutje in: 3x2% = volgens mij 6 en geen 8 :)

Maar ik denk eerder dat het wat hardwarematig falen is dan gewoon pech.
Temperatuur of voedings problemen lijken mij beter verklaren waarom er twee stuk zijn.
Zijn er logs waarin vermeld staan wat voor problemen hij heeft gehad?
Eventueel zou je de SMART status kunnen uitlezen van de nog levende schijven.

[ Voor 11% gewijzigd door ronny op 02-10-2008 09:07 ]

specs werkpaard Youngtimer Touring Car Campionship


Acties:
  • 0 Henk 'm!

  • olav_boz
  • Registratie: Juli 2008
  • Laatst online: 09:50
Tja, 'pech' is natuurlijk een subjectief begrip. 'Geluk' ook, maar als je hoofdprijs in de staatsloterij wint hoef je niet te gaan rekenen om te weten dat je het hebt ;)

Anyway, 3 x 2% is idd gewoon 6% in plaats van 8%, maar verder klopt het m.i. toch redelijk. Wel is die 2% een (fictieve) aanname die je normaliter moet berekenen op basid van de MTBF van het betreffende model disk. En dan zijn er nog allerlei factoren van invloed zoals het feit dat de kans op een defect niet lineair is gedurende de levensduur (helemaal in het begin hoger, dan dalend en naar het einde toe weer stijgend, geloof ik) en natuurlijk de belasting en de bedrijfsomstandigheden. Die waren in mijn geval respectievelijk laag (1 gebruiker, alleen opslag, geen mediaserver o.i.d.) en goed (kelder met constante lage temperatuur, voeding via UPS van APC).

De logs van de beheersoftware (het hippe Synology Disk Station Manager) meldden toen de eerste disk het opgaf iets als 'vastgelopen' als ik me goed herinner. Voor de tweede disk zie ik een hele reeks read errors in allerlei sectoren. Ik heb overigens inmiddels de RAID set verwijderd en ben 'm momenteel opnieuw aan het opbouwen bij wijze van experiment voordat ik de disks opstuur. Tussen beide acties door heb ik de status van alle disks gecheckt en uitgebreide SMART tests gedraaid. Het frappante resultaat: alles in orde... Misschien dat er nog iets boven water komt wanneer de software klaar is met het opbouwen van de RAID set. Als ik het goed heb worden tijdens dat proces alle disk eveneens uitgebreid gecontroleerd op bad sectors en dergelijke. Ik post dat dan wel ff.

Acties:
  • 0 Henk 'm!

  • R.E.
  • Registratie: Februari 2001
  • Laatst online: 17:37
Nou, volgens mij rammelt er wel wat aan je berekeningen. Volgens mij mag je die procenten niet zomaar optellen..... Ik weet te weinig van kansberekingen om je te vertellen hoe het wel moet......

Vette shit!


Acties:
  • 0 Henk 'm!

  • phobosdeimos
  • Registratie: Augustus 2007
  • Laatst online: 18:14
Mijn theorie zit zo: raid1 of raid5 zorgen voor betere "uptime" garanties, maar ze leggen ook meer druk en slijtage op de disks. Elk bitje moet meerdere malen gelezen en geschreven worden, met pariteitsberekeningen en dergelijke. Je brengt wel meer redundantie, maar tegelijkertijd laat je al je schijven ook veel harder werken dan dat je lekker 1 grote aparte disk zou gebruiken, en die dan 1x per dag te backuppen.

Acties:
  • 0 Henk 'm!

  • Robtimus
  • Registratie: November 2002
  • Nu online

Robtimus

me Robtimus no like you

Als alle vier de schijven uit dezelfde productiebatch komen (redelijk waarschijnlijk als je ze bij dezelfde winkel op hetzelfde moment hebt gekocht), en dat was gewoon een slechte batch, dan zouden zelfs je andere 2 schijven op korte termijn problemen kunnen geven. De kans op uitval van 1 schijf is dan opeens geen 2% meer maar een stuk hoger.

Idealiter is een RAID array opgebouwd uit harde schijven van hetzelfde type uit verschillende batches.

More than meets the eye
There is no I in TEAM... but there is ME
system specs


Acties:
  • 0 Henk 'm!

  • olav_boz
  • Registratie: Juli 2008
  • Laatst online: 09:50
ik heb uiteraard ff zitten Googlen om m'n eigen logica te verifieren maar kon zo snel geen bevestiging of weerlegging vinden, laat staan een correcte berekening. Maar wat ik nog wel weet van kansberekening (opa vertelt) is dat je in of/of situaties de percentages optelt en in en/en situaties de percentages vermenigvuldigt. De kans dat je met een dobbelsteen een 3 of een 5 gooit, is 1/6 + 1/6 = ongeveer 33,3%. De kans dat je twee keer achter elkaar een 5 gooit is 1/6 x 1/6 = ongeveer 2,8%.

Of de redenatie van phosdeimos klopt, weet ik niet: even los van het feit dat een RAID opstelling meestal sowieso zwaarder belast wordt dan een enkele disk in een doorsnee PC, worden de pariteitsberekeningen volgens mij in de controllerchip uitgevoerd die vervolgens dan maar 1 x data wegschrijft op meerdere schijven. Maar misschien zit ik ernaast, anyone?

Dat van die schijven uit verschillende batches klinkt in ieder geval wel aannemelijk: 4 schijven uit een batch van een productielijn die toe is aan vervanging (relatief veel slijtage waardoor meer afwijking aan de producten) hebben een grotere kans op uitval. Net zoiets als een maandagochtendauto zeg maar ;)

Iemand anders opperde op http://synology.nl/forum/ dat het ook aan de sata kabels zou kunnen liggen. Ik weet het ook niet, maar ik ga de NAS de komende dagen eens ff flink stresstesten om te kijken wat er gebeurt.

Acties:
  • 0 Henk 'm!

Verwijderd

Ik ben zelf ook een keer de dupe geworden van dataverlies op een schijf die nieuw / nog geen 3 maanden oud was. Ding hield er ineens mee op. Nergens aanleiding of traces dat de schijf sterven kon. Het schijnt meestal zo te zijn als deze een bepaalde periode doorbracht hebben (goede status, geen voltagewisselingen of warmte-issues en normaal gebruik) ze ook blijven doorgaan.

De eerste 3 maanden zijn altijd het prilst. Vooral in de hosting met grote Usenet-farms sterven nieuwe schijven als met appels uit een boom. De eerste periode is altijd het prilst.

Acties:
  • 0 Henk 'm!

  • olav_boz
  • Registratie: Juli 2008
  • Laatst online: 09:50
Update: heb de RAID set opnieuw opgebouwd met dezelfde disks, van alle disks de SMART status nog eens gecontroleerd (uitgebreide test van > 2 uur per stuk) en een hoop data naar de RAID heen en weer gekopieerd. Alles lijkt vooralsnog 100% correct te werken. Ik had liever gezien dat 1 of 2 disks foutmeldingen zouden geven want dan had ik een aanknooppunt gehad...

Acties:
  • 0 Henk 'm!

  • olav_boz
  • Registratie: Juli 2008
  • Laatst online: 09:50
Update: heb na nog enkele crashes (waarbij overigens keurig de data is hersteld door de Synology helpdesk) gratis een setje nieuwe sata-kabeltjes + powerkabels van Synology ontvangen. Sindsdien draait de NAS als een zonnetje. Ook als 'm zwaar belast door tegelijkertijd een 1080 movie te streamen naar mijn mediaplayer, Flac's te spelen op m'n Sonos systeem en bestanden te kopieren. De volgende NAS wordt weer een Synology, ondanks de troubles!

Acties:
  • 0 Henk 'm!

  • BartS12
  • Registratie: September 2006
  • Laatst online: 07-09 21:54
Om even terug te komen op je originele vraag: klopt je kansberekening? Antwoord : in ieder geval niet helemaal.
Rekenvoorbeeld: stel dat de kans dat een disk defect raakt binnen 1 jaar 2% is. Met 4 disks heb je dan 4 x 2% = 8% kans dat 1 van de 4 disks defect raakt.
Dit klopt niet. Het is makkelijk in te zien met een voorbeeld van 50 disks. Als het bovenstaande zou kloppen, zou de kans dat er tenminste 1 van de 50 kapot gaat in het eerste jaar, (50*2%)= 100% zijn.... En dan hebben we het nog niet over een voorbeeld met 51 disks. 102% ?

Overigens zit het er niet zo heel ver naast. Juist is: de kans dat een disk een jaar heel blijft, is 98%. De kans dat er 2/2 heel blijven, is 98% x 98% = 96.04%. Voor 4 HDs is het dus (98%)^4 = 92.24%. De kans dat er dus (tenminste!) 1 kapot gaat, is 1-92.24% = 7.76%.

De kans dat er precies 1 (!) kapot gaat, is 0.98^3 x 0.02^1 x (4!/3!) = 7.53%
De kans dat er precies 2 kapot gaan, is 0.98^2 x 0.02^2 x (4!/(2!x2!)) = 0.23%

Dus een nog kleinere kans dan je zelf uitgerekend had.

Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 11:14

Q

Au Contraire Mon Capitan!

BartS12 schreef op vrijdag 12 februari 2010 @ 13:32:
.
De kans dat er precies 1 (!) kapot gaat, is 0.98^3 x 0.02^1 x (4!/3!) = 7.53%
De kans dat er precies 2 kapot gaan, is 0.98^2 x 0.02^2 x (4!/(2!x2!)) = 0.23%

Dus een nog kleinere kans dan je zelf uitgerekend had.
Maar ik denk dat je het zo niet moet bekijken. Het gaat om de kans op data verlies. Zonder RAID is die dus 7.5% op jaarbasis in dit rekenvoorbeeld. Met RAID 5, waarbij pas verlies optreedt bij 2+ disk uitval is die kans dus fors lager.

Maar op het moment dat je 1 disk verliest speel je iedere dag dat je die defecte disk laat zitten een potje russische roulette met een revolver waarvan in 2 van de 100 kamers een kogel zit. Als je maar vaak genoeg speelt, heb je er wel een te pakken.

Als je de cijfers van google mag geloven zijn de kansen echter groter, disk uitval op jaarbasis is minstens 3% en de kans op precies 1 disk uitval is al bijna 11%. Precies 2 disks 0.5%. Kans van 1 op 200.
Pagina: 1