Als je er tenminste zeker van wilt zijn dat je data kwijt raakt, moet je vooral RAID5 gebruiken zonder er nog een backup naast te hebben.
RAID5 met dergelijke grote schijven is onverstandig. Alleen al in het simpelste geval van dat er 1 disk uit klapt of anderzijds defect raakt: dan heb je
geen redundantie meer.
Zodra je dan die defecte schijf vervangt, of een hot spare hebt, moeten de andere disken hard gaan werken om er weer een compleet geheel van te maken. Als je 2TB disken hebt duurt het met gemak een halve dag of meer voordat je weer redundant bent. Tijdens die procedure jaag je je de andere disken flink op en verhoogt de kans dat een van die drie ook uitvalt sterk. Gevolg: Array broken, data weg.
Voor disken tot 1TB is RAID5 nog wel te doen, maar daar boven wil je er niet aan beginnen als het je om databehoud te doen is. Ga dan voor ten minste RAID6, maar mijn voorkeur ligt bij een veel simpelere vorm: mirroring (RAID1). Combineer dat met een offsite backup, dan dek je jezelf al heel aardig in.
Mirroring is mooi omdat het zo eenvoudig is. Gewoon een kopie, niet meer niet minder.
En als een enkele mirror te klein is kun je striped mirroring doen (RAID10). Dan krijg je een groot volume opgebouwd uit mirror sets.
Klapt er dan een disk? Dan hoef je maar 1 disk de stress in te jagen, wat al een kleinere kans van uitval heeft dan 3 disks. En als dat nog steeds eng is zijn er technieken die triple way (of meer) mirrors toestaan, o.a. ZFS kan dat.
Bijkomend voordeel is dat je een disk uit een mirror set vaak zonder problemen kunt gebruiken in een willekeurige andere PC, zolang het filesystem maar ondersteunt wordt. Met RAID5 is dat andere koek.
Hoe mijn data protectie er uit ziet:
Ik zie drie niveau's als het op mijn data aan komt:
Prioriteit 1: Belangrijk; ten minste dubbele backup waarvan minstens 1 offsite
Priotiteit 2: Normaal; ten minste een enkele backup, bij voorkeur offsite.
Prioriteit 3: Fijn om te hebben, maar verlies ik geen slaap over als ik het kwijt ben.
(Prioriteit 4: ontplof maar, jammer dan)
Offsite: Mijn server, welke bij mijn ouders thuis staat.
Wat valt voor mij onder welk niveau:
1. Bestanden van mijn studie. Al ontploft hier het huis en verlies ik PC, laptop en USB disk/sticks. Dan staat er nog een kopie off-site op mijn server. Er bestaat synchronisatie tussen machine waar ik op werk en mijn server. Elk vak is een eigen git repository. Ik werk aan een vak op mijn laptop als ik in de universiteit ben. Sla daar mijn werk op op de laptop in de lokale git repository. Bij elke belangrijke/significante wijziging of ongeveer om het uur push ik mijn werk offsite. Zodra ik thuis kom probeer ik mijn USB disk aan mijn laptop te hangen, welke na inpluggen automatisch een backup script start welke mijn complete /home/stefan directory, excl. enkel directories (geen downloads of tmp dirs), synchroniseert met die disk.
Zodra ik een keer studeer aan mijn normale PC synchroniseer ik die ook, omdat ik voordat ik begin natuurlijk de meest recente wijzigingen binnen trek vanaf mijn server of de USB disk (mocht internet falen).
2. Hieronder valt de meeste data in mijn geval. Documenten, Foto's, configuratiefiles, en als het kan ook lopende knutselprojectjes en stiekem ook muziek. De eerste drie worden van mij naar de server gesynchroniseerd (hoewel deze replicatie op moment nog op zijn gat ligt, want ik heb mijn server pas geupgrade en geherinstalleerd, dus nog even mijn scripts bijwerken...). Knutselprojectjes probeer ik dat ook mee te doen, maar die wordt niet automatisch mee gepakt omdat daar de data en ook diens hoeveelheid erg uiteenloopt, die gaan handmatig.
Voor muziek is de synchronisatie van server naar mijn bak, omdat het op de server gedownload wordt. Die data is minder belangrijk dan documenten of foto's, maar er zit wel tijd in het verzamelen en alles netjes taggen. Voor muziek ben ik aan het kijken wat ik kan doen om het intelligenter of two-way sync te maken. Ik heb naar Unison gekeken, maar mja mja... dat heeft me toch niet zo kunnen bekoren. Ik wil binnenkort eens gaan experimenteren met git-annex om te kijken of dat iets voor me kan betekenen hier.
3. Video's, ISO, ebooks. Deze data staat op mijn server, zowel eigen rips/ebooks als wat gedownload materiaal. Deze staan op een ZFS striped mirror op mijn server en die probeer ik natuurlijk ten alle tijden in de lucht te houden. Ontploft de server, dan ben ik dit mogelijk kwijt. Echter is dit data die wel fijn is om te hebben, maar ik lijd er niet onder als het weg is. Het merendeel is allemaal terug te krijgen indien ik dat zou willen.
(4. Data die op schijf staat maar die niet belangrijk is en mogelijk nog verwijderd moet worden. Bijvoorbeeld verse downloads die in de ~/download staan.)
2 - RAID is geen backup maar een kopie van disk 1 naar disk 2 in de PC wel dan?
Zo'n kopie is meer backup dan RAID1 (mirror) dat is in ieder geval. Als jij iets verwijderd van een volume welke onderhuis een RAID1 is, dan is die data ook daadwerkelijk verwijderd (of de pointer er naar toe in ieder geval

).
Als jij een losse disk hebt waar je regelmatig, zeg ff dagelijks, een backup naar wegschrijft, dan kan daar nog een kopie op die losse disk staan.
Je moet het onderscheid maken tussen redundantie (RAID) en backups.
Redundantie houdt in dat je geen hinder hoeft te ondervinden van een defect onderdeel. Het systeem blijft gewoon beschikbaar en bruikbaar.
Backups zijn kopieën van data. Mocht het "origineel" van de aardbodem verdwijnen, dan ben je de data niet kwijt. Sterft de harddisk waar je OS op staat, dan zul je tijd moeten investeren om je systeem weer werkend te krijgen. Echter heb je nog wel een kopie van je data, dus die ben je gelukkig niet kwijt (mits disk OK en geen rare handelingen uitgevoerd op die disk).
Die losse schijf in je PC kan echter wel op zijn donder krijgen als de voeding van de PC ontploft, stroompiek, etc. En een virus infectie kan ook zijn weg naar die disk vinden omdat deze actief in je PC zit. Of je moet hem als read-only mounten en enkel read/write maken op het moment dat er een backup operatie plaatsvind.
4 - Is er een risico analyse waar de meeste mensen hun data aan verliezen? Want beveiligen tegen een risico dat 100x minder voorkomt dan een ander risico is zinloos. En een pseudo oplossing is ook zinloos.
Geen idee, maar meeste wat je meemaakt waarbij ik mensen in (lichte) paniek zie is een defecte laptop/harddisk of de software/OS gesloopt is waardoor ze er in ieder geval niet meer op de normale manier bij kunnen. Waarop ik natuurlijk de vraag stel: maar je hebt het toch ook op je USB stick gezet?
En het antwoord is steevast: 'Nou... *en dan weet ik al genoeg* dat had ik nog niet gedaan' of 'Ben ik vergeten.'
Ik ben in enkele van zulke situaties wel eens ingeschakeld op te kijken of ik de data terug kon halen. En zolang het geen defecte harddisk betrof is me dat eigenlijk altijd wel gelukt. Maar ik laat ze wel zweten en geef nogmaals alle tips om dit in de toekomst te voorkomen.
Als je stil blijft staan, komt de hoek wel naar jou toe.