Western Digital schijven met Advanced Format - Opslag en back-up

zondag 8 april 2012 12:06

Acties:

Topicstarter

Beste tweakers,

Ik ben aardig ten einde raad. Ik heb twee WD-schijven, te weten een WD20EARX en een WD20EARS. Beide zijn 2 TB groot.

In software raid leverde dit echter veel problemen. Zo werd mijn rootpartitie (md0) simpelweg afgesloten door mdadm omdat er problemen waren opgetreden. Ook vielen beide schijven regelmatig uit de RAID.

Nu ben ik eens verder op zoek gegaan. Het zijn beide Advanced Format schijven (dat betekent dat ze sectoren van 4096 bytes hebben). Als ik beide disks vergelijk:

Disk 1: WD20EARX

code:

Disk /dev/sdc: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00044ce8

Disk 2: WD20EARS

code:

Disk /dev/sdc: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x375f9663

De sectorgroottes van beide wijken nogal af. Nogal raar dat disk 2 een sectorgrootte van 512 bytes heeft, terwijl ik de jumpers op de schijf die dat gedrag veroorzaken niet heb geplaatst. Ik neem aan dat die physical sectorgrootte niet te veranderen is. Tenminste, ik krijg de physical sectorgrootte van disk 1 niet op 512.

Enig idee hoe ik dit kan oplossen? Op het label van beide disks staat dat ze wel allebei Advanced Format schijven zijn...

Alvast bedankt.

zondag 8 april 2012 12:12

Acties:

Hell-Slave

Je weet dat er speciale raid schijven zijn?
Deze zijn speciaal gemaakt om drop outs te voorkomen.

zondag 8 april 2012 12:23

Acties:

CaptJackSparrow

x07 - License to Tweak.

Het lijkt er op dat een van die schijven 512-byte emulatie aan heeft staan en de andere niet. Als zich dat niet zoals zou moeten via jumpers of software utilities laat instellen zou je even contact met WD moeten opnemen want ik sluit niet uit dat ze dan een firmware-update voor je hebben die je probleem evt. op zou kunnen lossen.

zondag 8 april 2012 12:26

Acties:

redfoxert

Zijn ze niet gewoon uit de RAID gevallen omdat ze geen TLER hebben en de software dus dacht dat ze niet meer reageerden? Waarom denk je dat de sector size het probleem is?

https://discord.com/invite/tweakers

zondag 8 april 2012 12:49

Acties:

pafdaddy

Deze schijven hebben Intellipark met een defaut interval van 8 seconden. Dit levert vaak problemen op. Zet deze timer op 300 seconden en probeer het dan nog eens.

Dit bericht kan oorzaak of gevolg zijn van misverstanden.

zondag 8 april 2012 12:56

Acties:

KoosDijk

Topicstarter

CaptJackSparrow schreef op zondag 08 april 2012 @ 12:23:
Het lijkt er op dat een van die schijven 512-byte emulatie aan heeft staan en de andere niet. Als zich dat niet zoals zou moeten via jumpers of software utilities laat instellen zou je even contact met WD moeten opnemen want ik sluit niet uit dat ze dan een firmware-update voor je hebben die je probleem evt. op zou kunnen lossen.

Ik kan wel met een extra jumper de emulatie aanzetten. Dit schijnt echter wel effect te hebben op de performance, dus ik heb liever beide disks op 4096 bytes.

Hell-Slave schreef op zondag 08 april 2012 @ 12:12:
Je weet dat er speciale raid schijven zijn?
Deze zijn speciaal gemaakt om drop outs te voorkomen.

Klopt. Echter heb ik in een andere bak 2x 1 TB WD's hangen, en dit gaat prima.

redfoxert schreef op zondag 08 april 2012 @ 12:26:
Zijn ze niet gewoon uit de RAID gevallen omdat ze geen TLER hebben en de software dus dacht dat ze niet meer reageerden? Waarom denk je dat de sector size het probleem is?

Omdat ik nergens anders het probleem kan vinden. Ik heb beide disks getest op bad blocks, filesystem check gedaan, SMART long test... alles ging prima. Toen viel me de afwijkende sectorgrootte op. Ik kan me voorstellen dat mdadm op sectorniveau werkt en alle sectoren overneemt op de andere disk. Als je dan 2 disks hebt met afwijkende sectorgrootte kan dat lijkt me voor problemen zorgen?

zondag 8 april 2012 14:03

Acties:

Hell-Slave

KoosDijk schreef op zondag 08 april 2012 @ 12:56:

Klopt. Echter heb ik in een andere bak 2x 1 TB WD's hangen, en dit gaat prima.

Ik zeg niet dat het niet werkt, maar je loopt wel verhoogd risico op drop outs als je normale hdd's gebruikt.
Waarom denk je dat die hdd's gemaakt worden?

zondag 8 april 2012 14:13

Acties:

KoosDijk

Topicstarter

Hell-Slave schreef op zondag 08 april 2012 @ 14:03:
[...]

Ik zeg niet dat het niet werkt, maar je loopt wel verhoogd risico op drop outs als je normale hdd's gebruikt.
Waarom denk je dat die hdd's gemaakt worden?

Ik zal het eens proberen om dat interval op te hogen naar 300 seconden. Maar denk je dat die fouten niet door die sectorgrootte worden veroorzaakt?

zondag 8 april 2012 20:55

Acties:

Hell-Slave

KoosDijk schreef op zondag 08 april 2012 @ 14:13:
[...]

Ik zal het eens proberen om dat interval op te hogen naar 300 seconden. Maar denk je dat die fouten niet door die sectorgrootte worden veroorzaakt?

Ik heb geen idee of dat de veroorzaker is, ik mix nooit verschillende type/merken door elkaar in raid.
Het ligt waarschijnlijk ook aan je type controller.
Ik zou het risico niet lopen en 2 zelfde hdd's nemen.

maandag 9 april 2012 08:04

Acties:

pafdaddy

KoosDijk schreef op zondag 08 april 2012 @ 14:13:
[...]

Ik zal het eens proberen om dat interval op te hogen naar 300 seconden. Maar denk je dat die fouten niet door die sectorgrootte worden veroorzaakt?

Je zult het tegen mij hebben? Het zou me niet bevreemden als de fouten verdwijnen als je de interval op 300 seconden zet. Elke keer dat de schijven weer uit de park positie moeten komen kost relatief gezien veel tijd, en 8 seconden idle time zal best voorkomen denk ik. Sowieso komt het de levensduur van de schijf ten goede.

Dit bericht kan oorzaak of gevolg zijn van misverstanden.

maandag 9 april 2012 11:57

Acties:

Verwijderd

Even wat weetjes op een rij:

Advanced Format schijven hebben fysiek 4K sectors maar doen alsof ze ouderwets 512-byte sectoren hebben.
Advanced Format schijven emuleren dus kleinere sectoren, zodat de schijven met alles compatible blijven
Ook de andere schijf die 4K aangeeft heeft 512B 'logical' sectors; Linux is hier echter zo slim om de schijf te herkennen en te weten dat het eigenlijk 4K sectors heeft.
Kortom, advanced format schijven liegen over hun sector size, er bestaan geen (consumenten)schijven die eerlijk vertellen dat ze 4K sectors hebben, waarschijnlijk door incompatibiliteit met oude systemen.
Dit gedrag is NIET te veranderen met de jumper; het enige wat deze jumper doet is de LBA opschuiven door 64 sectors per track door te geven in plaats van 63 sectors per track. Hierdoor maakt Windows XP zijn partitie op de 64e sector (=4K aligned) in plaats van 63e sector (= foutief aligned).
Gebruik NOOIT de jumper; die is bedoeld voor XP en kun je beter oplossen met en aligned partitie.

En verder nog:

TLER is normaliter niet nodig voor Linux/BSD software RAID; alleen voor Hardware RAID en Windows onboard RAID. Deze RAID engines zijn ontworpen met de verouderde gedachte dat schijven óf helemaal goed óf helemaal slecht zijn. Een schijf die een scheet laat (recovery) worden er dus uitgemept.
Headparking zou theoretisch voor hetzelfde kunnen zorgen; dus met WDIDLE inderdaad naar 300 seconden verhogen zoals hierboven aanbevolen.
WD20EARS en WD20EARX zijn praktisch dezelfde schijven; maar laatstgenoemde heeft een SATA/600 interface ipv SATA/300.
Je hebt in dit topic nog geen SMART gegevens gepost; dat is de eerste stap die je zou moeten doen in het analyseren van de gezondheid van je hardeschijven. Dus begin daar eens mee. SMART output voor beide schijven. Merk op dat een 'SMART test' iets heel anders is. Het gaat om de SMART log, met attributen als Current Pending Sector en UDMA CRC Error Count; respectievelijk voor bad sectors en kabelfouten.

[ Voor 3% gewijzigd door Verwijderd op 09-04-2012 11:58 ]

maandag 9 april 2012 12:15

Acties:

pafdaddy

Ik heb de afgelopen jaren 6 WD en 4 Hitachi desktop HDs in een intel RAID gehad (nu nog 4 keer WD blue) en er is op 1 keer na nog nooit een schijf uit een set geknikkerd. Die ene schijf was ook echt defect.

Dit bericht kan oorzaak of gevolg zijn van misverstanden.

maandag 9 april 2012 12:44

Acties:

Verwijderd

Dus? Die verhalen hoor ik al 20 jaar.... "ik heb 3 schijven van Samsung gekocht, alle drie stuk. Koop drie schijven van Western Digital en alle drie goed. Conclusie: western digital gaat nooit stuk, en samsung verkoopt alleen defecte schijven." Oh wacht, het gaat maar om een paar schijven, niet om 200 miljoen waardoor je statistisch iets significants kunt zeggen. Voor een ander is het dus precies andersom. Dat jij achter elkaar zessen hebt gegooid met een dobbelsteen, betekent niet dat je dat in de toekomst ook 6 blijft gooien.

Schijven met een hogere datadichtheid hebben meer last van uBER. Dus het is volkomen normaal dat nieuwere schijven dit probleem sneller tegenkomen dan oudere schijven met veel lagere datadichtheid.

Bij hardware RAID en Windows onboard RAID worden schijven die 10 seconden niet reageren uit de array geknikkerd. Erg primitief gedrag, maar op deze manier stellen de drivers vast of een schijf is gefaald of niet. Ouderwets en met alle risico's van dien; een simpele bad sector kan genoeg zijn om een hele schijf uit de array te donderen. Dus omdat 512 bytes niet gelezen kon worden, schoppen we 2 terabyte in de prullenbak. Zoiets kan natuurlijk alleen 'proprietary' zijn; een zinning mens verzint zoiets niet.

Ergo, je krijgt problemen zoals schijven die uit de RAID vallen bij timeouts, die meestal veroorzaakt worden door bad sectors (Current Pending Sector in je SMART-output). Foutieve kabels is ook een mogelijkheid, dit kun je zien door UDMA CRC Error Count in je SMART-output. SMART is cruciaal voor dit probleem; je dient SMART uit te lezen voordat je andere dingen probeert die naar de schijf schrijven; daarmee vernietig je namelijk mogelijk bewijs over bad sectors.

En zoals je weet: als je een bad sector overschrijft, wordt hij omgewisseld. Dus als je Current Pending Sector in je SMART output hebt, kun je die simpel weg krijgen met een lange format onder windows 7. Dat staat gelijk aan een zero-write, en wordt dus ook de foutieve sector omgewisseld bij fysieke schade aan de sector.

[ Voor 5% gewijzigd door Verwijderd op 09-04-2012 12:58 ]

maandag 9 april 2012 12:59

Acties:

pafdaddy

Rustig jongen, adem in en adem uit. Het enige wat ik TS wil meegeven dat het met gewone desktop schijven niet persé fout hoeft te gaan; de rest maak jij ervan.

Ps, Netgear certificeerd zowel de WD20EARX en de WD20EARS voor hun Readynas producten, en daarmee zijn ze niet over één nacht ijs gegaan.

Maar we geraken offtopic, met excuus aan de TS.

[ Voor 37% gewijzigd door pafdaddy op 09-04-2012 13:05 ]

Dit bericht kan oorzaak of gevolg zijn van misverstanden.

maandag 9 april 2012 13:34

Acties:

Verwijderd

Het enige wat ik TS wil meegeven dat het met gewone desktop schijven niet persé fout hoeft te gaan

Daarmee impliceer je opnieuw dat hij TLER-schijven nodig zou hebben, en dat dat de oorzaak van zijn probleem is. Daar heb ik hierboven uitgebreid op gereageerd, en als je dat verhaal goed begrijpt weet je ook dat TLER niet zijn probleem is.

TLER is zelfs gevaarlijk voor configuraties waarin dit niet nodig is; je schakelt in feite de error recovery uit van de hardeschijf. Dit kan tot ongewenste situaties leiden als je geen redundancy in je RAID meer over hebt. In plaats van dat de schijf het gelijk opgeeft, wil je juist dat deze de tijd neemt om je data te recoveren. Met name als het om gevoelige filesystem metadata gaat, waarin bovengemiddeld veel bad sectors voorkomen.

maandag 9 april 2012 19:28

Acties:

KoosDijk

Topicstarter

Verwijderd schreef op maandag 09 april 2012 @ 11:57:
Even wat weetjes op een rij:
Ook de andere schijf die 4K aangeeft heeft 512B 'logical' sectors; Linux is hier echter zo slim om de schijf te herkennen en te weten dat het eigenlijk 4K sectors heeft.
Kortom, advanced format schijven liegen over hun sector size, er bestaan geen (consumenten)schijven die eerlijk vertellen dat ze 4K sectors hebben, waarschijnlijk door incompatibiliteit met oude systemen.
En verder nog:
WD20EARS en WD20EARX zijn praktisch dezelfde schijven; maar laatstgenoemde heeft een SATA/600 interface ipv SATA/300.
Je hebt in dit topic nog geen SMART gegevens gepost; dat is de eerste stap die je zou moeten doen in het analyseren van de gezondheid van je hardeschijven. Dus begin daar eens mee. SMART output voor beide schijven. Merk op dat een 'SMART test' iets heel anders is. Het gaat om de SMART log, met attributen als Current Pending Sector en UDMA CRC Error Count; respectievelijk voor bad sectors en kabelfouten.

Dank voor je uitgebreide post. Toch vind ik het raar dat je aangeeft dat enerzijds de disken vrijwel hetzelfde zijn, maar anderzijds dat bij de ene disk wel herkend wordt dat het een 4096-byte disk betreft, en bij de andere niet. Misschien iets andere firmware, of door de andere interface?

De SMART-gegevens waar je om vraagt:

De WD20EARS:
UDMA_CRC_Error_Count: 14 (?)
Current_Pending_Sector: 0

De WD20EARX:
UDMA_CRC_Error_Count: 46 (?)
Current_Pending_Sector: 0

Er zijn dus wel enkele UDMA fouten, maar ik heb geen idee of deze getallen significant zijn.

[ Voor 23% gewijzigd door KoosDijk op 09-04-2012 19:30 ]

maandag 9 april 2012 20:10

Acties:

Verwijderd

KoosDijk schreef op maandag 09 april 2012 @ 19:28:
Toch vind ik het raar dat je aangeeft dat enerzijds de disken vrijwel hetzelfde zijn, maar anderzijds dat bij de ene disk wel herkend wordt dat het een 4096-byte disk betreft, en bij de andere niet. Misschien iets andere firmware, of door de andere interface?

Ik denk dat Linux die info uit een database haalt, en dus niet van de schijf zelf afkomt. Alle advanced format schijven identificeren zich als 512-byte sectoren en kunnen daardoor nooit incompatibilitieit veroorzaken; hooguit lage performance als de schijf kleinere sectoren moet emuleren. Dat laatste gebeurt veel als je een verkeerd alignde partitie hebt.

Er zijn dus wel enkele UDMA fouten, maar ik heb geen idee of deze getallen significant zijn.

UDMA CRC Error Count wil zeggen kabelfouten. Opzich is een 40-tal kabelfouten niet significant, tenzij het gloednieuwe schijven zijn die nog geen uur draaien. Als je écht foute kabels hebt, dan zie je een getal van in de tienduizend. Zolang de UDMA CRC Error Count gelijk blijft en dus niet hoger wordt, zijn je kabels prima.

Als je wilt kun je de volledige SMART posten, zodat ik ook naar seek error rate en raw read error rate kan kijken. Dat werkt iets ingewikkelder. Onder Linux kun je de SMART eenvoudig zien met:

smartctl -A /dev/sda
(niet -a maar -A; dan krijg je alleen de SMART attributen te zien; de belangrijke info dus).

Onder Windows met HDTune.