In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal. Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector.
Ja, sorry dat lijkt me een beetje kort door de bocht allemaal.
In vrijwel alle gevallen gaat het niet om fysieke schade maar om te weinig errorcorrectie; de ECC kan het niet meer corrigeren. Dat wordt ook wel Bit Error Rate (BER) genoemd en bij consumentenschijven met hoge dichtheid is dit supernormaal.
Nee dat is het niet. ECC is zodanig 'ontworpen' voor de specifieke situatie waarbij wel afweging wordt gemaakt tussen te verwachten fouten en de 'cost', dat het in principe altijd kan corrigeren en op het moment dat dit niet het geval is, is er een probleem. Dus ja, drives passen veelvuldig ECC correctie toe (net zoals SSD's trouwens) dus dat is normaal, maar dat een read 'aan de lopende band' zoveel bit errors oplevert dat ECC correctie tekortschiet is niet normaal en al helemaal niet super normaal.
Met 'ontworpen' toegepast op situatie bedoel ik dat je voor een bepaald algoritme kiest als je 'burst errors' verwacht, en een ander algoritme wanneer je bijvoorbeeld meer random bitflips verwacht bijvoorbeeld. Daarbij is van belang dat sterkere detectie en correctie meer kost aan ruimte en eventueel rekenkracht, het is dus een balanceer act. Wanneer een drive aan de lopende band niet corrigeerbare bit errors oplevert koopt niemand dat ding. Dus aan de fabrikant om de optimale balans te vinden:de gemiddelde gebruiker wil een betrouwbare, maar ook een betaalbare drive.
Juist daarom wil je ZFS omdat deze prima om kan gaan met af en toe een onleesbare sector.
Een sector die niet gelezen kan worden is een sector die niet gelezen kan worden. De drive zal dus een UNC rapporteren. Daar gaat ZFS wat precies aan veranderen?
Schijf vervangen is onzin; alle consumentenschijven hebben een gespecificeerde uBER van zo'n 10^-14. Met de huidige capaciteiten betekent dit dat je op elke consumentenschijf binnen zijn levensduur pending sectors gaat krijgen
Ik ben geen wiskundige o.i.d. maar dat betekent dat volgens mij dus helemaal niet. Je schrijft het op alsof er een garantie op een 'uBER' is wanneer je 12.5 TB leest en dat is natuurlijk niet zo, dat is niet wat de door de fabrikant opgegeven waarde betekent.
Maar dat terzijde. MS heeft ooit een onderzoek gedaan waarbij ze 2 PB data lezen van goedkope hard drives en constateren 5 read errors. Dat zijn dus uncorrectable errors waarbij de ECC niet opgewassen is tegen aantal bit errors. Dat zouden er 112 moeten zijn geweest volgens de statistiek opgegeven door de fabrikant.
Het is natuurlijk zo dat read errors veelal geen incidenten zijn maar gevolg van een 'wrakke' schijf, een 'maandag ochtend model' waar als daar een serie fouten optreedt het gemiddelde voor een batch aan schijven die je test omhoog gaat, terwijl wanneer je een goede schijf treft je makkelijk 100 TB zonder fouten lezen kunt. MS testte ook in batches, en zo was een batch waar 756 TB gelezen werd read error vrij. Dat hadden er vlgs. de 1 per 12.5 TB formule zo'n 60 moeten zijn.
Nog zo iets: veel lezen is de schijf veel gelegenheid bieden om onbetrouwbare sectoren te vinden en op voorhand te re-mappen en het zou dus zo kunnen zijn dat op een schijf met veel cold data op den duur meer fouten kunnen optreden.
Afijn, zo zijn er allerlei bezwaren te bedenken tegen de 1 niet corrigeerbare bit error per 12.5 TB mythe.
[
Voor 10% gewijzigd door
Stanton op 16-03-2023 17:27
]