HDD betrouwbaarheid? - Opslag en back-up

woensdag 22 oktober 2014 11:59

Acties:

Topicstarter

Nadat onlangs voor de 5e keer een schijf in mijn RAIDZ2 array van 6 schijven is overleden en de garantie binnenkort verloopt ben ik van plan alle 6 schijven te vervangen.

Toen ik de schijven ongeveer 2 jaar geleden aanschafte heb ik eigenlijk geen aandacht besteed aan de betrouwbaarheid van de schijven. Dat was ik van plan dit keer anders te doen, maar echt veel informatie over betrouwbaarheid kan ik niet vinden. Ik heb alleen het Google onderzoek uit 2007 (helaas zonder merk info) en de blog posts van Backblaze kunnen vinden. Zijn er geen andere, publiek beschikbare, onderzoeken naar HDD betrouwbaarheid?

P.S. Kan deze vraag verplaatst worden naar het Opslagtechnologie forum? Daar had ik het willen vragen.

[ Voor 7% gewijzigd door XiMMiX op 22-10-2014 12:01 ]

woensdag 22 oktober 2014 12:10

Acties:

DCG909

Die posts van Blackblaze schijnen niet zo bruikbaar te zijn, omdat deze portable HDD's gebruiken en uit de behuizing halen, vervolgens worden deze ook in krappe (zelfgemaakte) behuizingen gestopt waarin trillingen niet echt goed opgevangen worden.

dinsdag 28 oktober 2014 09:44

Acties:

XiMMiX

Topicstarter

Ik ben op de hoogte van de beperkingen van de gegevens van Backblaze. Vandaar ondermeer mijn zoektocht naar meer (betere?) informatie.
Overigens, de schijven die ik heb gebruikt en dus problemen mee heb zijn van Seagate, model ST3000DM001. Precies degene die er bij Backblaze slecht uit komen. Maar ik moet toegeven dat 12 schijfjaren alles behalve representatief kunnen zijn.

dinsdag 28 oktober 2014 09:48

Acties:

br00ky

Moderator Harde Waren

XiMMiX schreef op woensdag 22 oktober 2014 @ 11:59:

P.S. Kan deze vraag verplaatst worden naar het Opslagtechnologie forum? Daar had ik het willen vragen.

Fixed.

dinsdag 28 oktober 2014 09:53

Acties:

Verwijderd

Seagate lijkt inderdaad iets van mindere kwaliteit te zijn. Toch ben ik zelf erg voorzichtig in het trekken van conclusies uit niet-representatieve onderzoeken en wat persoonlijke ervaringen. Dat is niet voldoende om een wetenschappelijk verantwoorde conclusie uit te trekken.

Je zegt zegt dat van alle 6 schijven er 5 zijn gefaald door de tijd heen? Dat is wel extreem. Je kunt natuurlijk erg pech hebben; het kan ook een gemeenschappelijke oorzaak zijn, zoals voeding, ernstige trillingen, schokken, temperatuur of andere oorzaken. Kun je wat meer informatie geven over hoe de schijven aan hun eind zijn gekomen? En met overleden bedoel je ook echt dat ze niet meer opspinnen, of geldt een schijf dat een SMART failure geeft, of bad sectors heeft, voor jou ook als gefaald?

dinsdag 28 oktober 2014 10:57

Acties:

XiMMiX

Topicstarter

Probleem per schijf:
1:
Bad sectors (Current_Pending_Sector+Offline_Uncorrectable) in SMART. Geprobeerd op te lossen dmv SeaTools, maar ondanks dat SeaTools zegt het probleem opgelost te hebben geeft een volgende test nieuwe bad sectors.

2+3:
Schijven gaven klikkend geluid en werden niet meer door BIOS herkend.

4:
Bad sectors (Current_Pending_Sector+Offline_Uncorrectable) in SMART => Met dd volledig overschreven met 0 => Bad sector count in SMART weer op 0, maar ook Reallocated_Sector_Ct bleef op 0 => SMART long selftest geeft geen problemen => met dd volledige schijf uitgelezen => Bad sectors zijn weer terug.
Ik heb bovenstaande handelingen meerdere malen uitgevoerd (ook met 1 en random overschreven ipv 0). Maar telkens hetzelfde resultaat, bad sectors zijn weg totdat je ze zelf probeert uit te lezen. Lijkt hetzelfde probleem als de 1e.

5:
Bad sectors (Current_Pending_Sector+Offline_Uncorrectable) in SMART. Deze is zonder verdere tests terug naar Seagate.

Wat betreft gemeenschappelijke oorzaak:
Voeding => vervangen na 3e defect
Trillingen => De schijven zitten in een Fractal Define R4, op rubbers gemonteerd. Dit laatste ben ik geen fan van, maar is in deze case moeilijk anders te doen. De case staat op een betonnen vloer.
Schokken => Niet bij mij en dus niet gemeenschappelijk. Zowel de originele schijven als de vervangingen falen.
Temperatuur => Na 2e defect heb ik een extra case fan geplaatst.
defect 1+2: Idle => 39-40, full load => 44-45
defect 3,4,5: Idle => 34-35, full load => 39-40

Moraal van het verhaal, voor mij in ieder geval: Als Seagate specs 2400 uur/jaar stellen dan moet je ze echt niet 24/7 gebruiken (> 8500 uur). In die zin lijkt het een beetje op het IBM Deathstar probleem. Wat eigenlijk wel ironisch is, want zoals het er nu uitziet ga ik ze vervangen door een verre opvolger van de Deathstar, namelijk de HGST Deskstar NAS.

dinsdag 28 oktober 2014 11:11

Acties:

Verwijderd

Dat noem ik dus twee gefaalde schijven (die niet meer door de BIOS werden herkend). De rest (3) zijn dus schijven met bad sectors. Dat is normaal. Schijven zijn ontworpen om bad sectors te maken, omdat ze niet genoeg error correctie hebben om dit te voorkomen. Dat erkennen de fabrikanten ook, middels de cryptische uBER specificatie van 10^-14. Dat betekent in het ergste geval een bad sector per dag - als je een 100% duty cycle erop zou loslaten. Realistischer is een bad sector per 3 weken ofzo - gemiddeld. Dat wil dus zeggen veelal 0 bad sectors en een schijf met 14 bad sectors. Gemiddeld kom je dan aan een gestaag aantal bad sectors.

Anders is het als je schijf meer dan duizend bad sectors heeft. Dat is niet normaal. Maar een paar, dat hoort erbij. Daar heb je ook ZFS voor; dat is vrijwel immuun voor bad sectors al helemaal een RAID-Z2 pool. Daar hoef je echt geen zorgen om te maken. Als de bad sector na een scrub nog bestaat, betekent dit ook dat de bad sector zich voordoet in gebieden die niet in gebruik zijn door ZFS. Zodra ZFS deze gebieden in gebruik wilt nemen, verdwijnt de bad sector automatisch omdat deze wordt overschreven.

Het gaat ook niet om sectoren met fysieke schade, maar om sectoren die niet leesbaar zijn door te weinig errorcorrectie. uBER bad sectors noem ik dat. Overschrijf je deze, dan verdwijnen ze, zonder dat Reallocated Sector Count wordt opgehoogd. Ze worden dus niet vervangen, want ze zijn fysiek prima in orde.

Systeem van mijn broer had binnen enkele maanden bad sectors op de helft van zijn schijven. Draait nog steeds prima nu na anderhalf jaar.

Je hebt wel een probleem met bad sectors als je geen 3e generatie filesystem gebruikt, maar ouderwets RAID. Zeker de Greens icm Hardware RAID of Windows onboard RAID heb je dan grote problemen, zoals een gebroken/gefaalde RAID array. Maar juist op dat punt is ZFS dus duizend keer beter. Je hebt er geen omkijken naar. Zolang je maar elke paar maanden een scrub doet op je redundante pool, zit je prima.

dinsdag 28 oktober 2014 12:38

Acties:

XiMMiX

Topicstarter

Ik ben het helemaal eens dat een beperkt aantal bad sectors niet per definitie een probleem hoeft te zijn. Maar de schijf moet na de bad sectors wel weer in een stabiele toestand komen. Waarmee ik bedoel dat ik dmv dd een schijf ten minste 1 maal volledig kan uitlezen zonder op fouten te stuiten.

Dit laatste was bij mijn schijven helaas niet het geval. Maar het ging dan ook telkens om meer dan een handvol sectors. Ik heb de logboeken nagekeken en schijf 1 had Reallocated_Sector_Ct 3244 toen ik het opgaf en deze retour Seagate ging. Schijf 4 was een apart geval. Het ging telkens om 165-224 Current_Pending_Sectors die verdwenen na overschrijven zonder dat Reallocated Sector Count opgehoogd werd, uBER sectors dus. Maar de schijf daarna volledig uitlezen met ddrescue leverde opnieuw een vergelijkbaar aantal Current_Pending_Sectors op. Ondanks 6x proberen.
Schijf 5 had Current_Pending_Sector 984, ik heb niet meer geprobeerd deze te overschrijven omdat ik inmiddels mijn vertrouwen in dit type schijf volledig kwijt ben.

dinsdag 28 oktober 2014 15:21

Acties:

rookie no. 1

Nou noem je met de ST3000DM001 ook wel een model die érg veel problemen heeft, is bekend. Seagate heeft in het algemeen wat vaker problemen dan bv. WD of Hitachi, dus ik denk dat je met Hitachi in elk geval beter zit.