S.M.A.R.T. status WD Red drive - Opslag en back-up

maandag 1 april 2013 09:38

Acties:

Keep burning!

Topicstarter

Ik ben in het bezit van een DS413 in combinatie met 3 x Western Digital Red 2 TB (WD20EFRX) in RAID-5, nu heb ik sinds een aantal dagen op disk 1 de volgende S.M.A.R.T waarden:

code:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       9
  3 Spin_Up_Time            0x0027   182   176   021    Pre-fail  Always       -       3875
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       563
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   095   095   000    Old_age   Always       -       3731
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       441
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       68
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       494
194 Temperature_Celsius     0x0022   119   117   000    Old_age   Always       -       28
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       5

Waar ik me dus zorgen over maak is de Current_Pending_Sector, ik denk dat de Raw_Read_Error_Rate en de Multi_Zone_Error_Rate daar ook mee te maken hebben. Ik heb nu denk ik de volgende opties:

Niets doen en afwachten, lijkt me niet de beste optie, kan je wachten tot het misschien echt fout gaat.
Disk een low level format geven en de array laten rebuilden, dan zou de Pending Sector een Reallocated Sector moeten worden en zou de disk in principe weer ok zijn. Voor zover ik begrijp zijn de Raw_Read_Error_Rate en Multi_Zone_Error_Rate afkomstig van het lezen/schrijven van de pending sector, kan iemand dat bevestigen?
Een RMA indienen en de disk vervangen.

Ik ben natuurlijk in het bezit van de nodige backups maar het liefst wil ik mijn array in orde houden.
Heeft iemand advies wat nu de beste oplossing is; via een advance RMA bij WD heb je binnen een week een nieuwe disk maar ik weet niet of de huidige S.M.A.R.T. status genoeg is voor een RMA?

maandag 1 april 2013 12:09

Acties:

_JGC_

Je zou op zich gewoon een verify kunnen draaien, wordt die ene sector na 7 seconden proberen als gefaald opgegeven en zal je NAS dat ding overschrijven met nieuwe data.

Bad sectors met 2TB schijven is redelijk normaal, maar je hebt in dit geval ook nog NAS schijven met TLER ingeschakeld. Een normale disk zal tot in den treure proberen om een sector te lezen, terwijl een disk met ingeschakelde TLER na 7 seconden doorgeeft aan de controller dat er een probleem is, zodat die daarop actie kan ondernemen.

maandag 1 april 2013 12:16

Acties:

Rainesh

Ligt het aan mij of zie ik niks ernstigs?

Ik zou de schijf eruit halen en een low level format doen. Mocht dat niet verhelpen, dan datascrubbing (zit tegenwoordig in dsm4.2 ingebouwd).

[ Voor 65% gewijzigd door Rainesh op 01-04-2013 12:18 . Reden: Table werd niet goed weergegeven. ]

http://tweakers.net/gallery/103719/sys.

maandag 1 april 2013 12:16

Acties:

RichZ

Keep burning!

Topicstarter

_JGC_ schreef op maandag 01 april 2013 @ 12:09:
Je zou op zich gewoon een verify kunnen draaien, wordt die ene sector na 7 seconden proberen als gefaald opgegeven en zal je NAS dat ding overschrijven met nieuwe data.

Bad sectors met 2TB schijven is redelijk normaal, maar je hebt in dit geval ook nog NAS schijven met TLER ingeschakeld. Een normale disk zal tot in den treure proberen om een sector te lezen, terwijl een disk met ingeschakelde TLER na 7 seconden doorgeeft aan de controller dat er een probleem is, zodat die daarop actie kan ondernemen.

Bedoel je met verify wat bij Synology "Data scrubbing" wordt genoemd?

maandag 1 april 2013 15:21

Acties:

_JGC_

Waarom disk eruittrekken en een "low level" format doen? (die bestaat al niet meer, je bedoelt je hele disk van voor tot achter overschrijven).

Data scrubbing is idd vergelijkbaar met een verify op RAID controllers.

maandag 1 april 2013 16:50

Acties:

RichZ

Keep burning!

Topicstarter

_JGC_ schreef op maandag 01 april 2013 @ 15:21:
Waarom disk eruittrekken en een "low level" format doen? (die bestaat al niet meer, je bedoelt je hele disk van voor tot achter overschrijven).

Data scrubbing is idd vergelijkbaar met een verify op RAID controllers.

Ik bedoel idd "write zeroes" of iets dergelijks, ik zal in ieder geval beginnen met de de boel te scrubben, kijken wat er dan gebeurt met de S.M.A.R.T. waardes. Ik weet dat een paar pending sectors in principe geen enkel probleem hoeft te zijn maar ik heb eerder in mijn desktop een disk gehad die begon met een enkele pending sector, een paar weken later had ik er meerdere en daarna was het einde verhaal.

maandag 1 april 2013 21:22

Acties:

Verwijderd

Current Pending Sector is eigenlijk de meest ernstige conditie van een hardeschijf die je maar kunt hebben, behalve een helemaal dode hardeschijf. Dat gezegd: een hardeschijf met pending sectoren is tegenwoordig normaal en dat gebeurt min of meer aan de lopende band. Als een schijf heel veel pending sectoren gaat maken of na een zero write er telkens pending sectors bijkomen, dan is het einde verhaal.

Het grote probleem is dat het onderliggende filesystem inclusief RAID-laag helemaal niet opgewassen is tegen pending sectors. Dat kan heel grote problemen opleveren. Echter, de cruciale vraag is of de pending sector wel actief in gebruik is ja of nee. Ze ontstaan vaker op gebieden die lange tijd niet zijn beschreven en wellicht ook helemaal niet in gebruik door je filesystem. Omdat filesystem en RAID-laag gescheiden zijn bij alle non-ZFS oplossingen, heb je hier nog wel een risico aan. Je disk met pending sector kan uit de RAID gegooid worden ook al was die sector helemaal niet belangrijk omdat hij niet in gebruik was; dat weet de RAID-laag niet omdat die strict gescheiden zijn.

Als je een disk met Current Pending Sector wilt RMA'en, bedenk dan dat je al je 2TB+ hardeschijven ooit zult moeten RMA'en. Dit is namelijk heel normaal; het hoort erbij. Het is een normaal gevolg van de hoge BER-rate van hardeschijven.

Wat kun je het beste doen? Ik denk een verify inderdaad. Als dat goed gaat dan zal de bad sector worden overschreven en dan is het probleem weg. Je Current Pending Sector is dan weer 0. Als het een bad sector was met fysieke schade, dan zal hij worden omgewisseld (Reallocated Sector Count) maar steeds vaker gebeurt dat niet omdat er geen fysieke schade is. Het is gewoon 'normaal' dat je hardeschijf af en toe een sector niet kan lezen (BER). Daar hebben grote hardeschijven met hoge datadichtheid steeds meer last van. Zulk soort 'bad sectors' blijven gewoon in gebruik en zijn fysiek prima in orde. De schijf RMA'en in deze situatie is complete onzin.

maandag 1 april 2013 23:14

Acties:

jbhc

@CiPHER:

Je begint op een hangende LP te lijken

maandag 1 april 2013 23:44

Acties:

Verwijderd

Ach, soms moet je dingen gewoon veel herhalen. SMART is ook niet echt ontworpen om gemakkelijk te worden geïnterpreteerd door normale stervelingen. Dat had veel beter gekund. Gevolg is natuurlijk dat heel veel mensen vragen hebben over SMART. Wellicht moet ik hier een sticky over maken?

dinsdag 2 april 2013 17:48

Acties:

RichZ

Keep burning!

Topicstarter

De verify heeft vanacht gedraaid en meldt dat er geen problemen zijn, de Current_Pending_Sector staat nog steeds op 1, de Multi_Zone_Error_Rate staat nog steeds op 5 en de Raw_Read_Error_Rate is gestegen van 9 naar 13. Ik houd het wel in de gaten, zolang er niet al te veel pending sectors bij komen zal het wel goed zijn, op zich wel vreemd dat de pending sector geen reallocated sector is geworden.

[ Voor 11% gewijzigd door RichZ op 02-04-2013 18:03 ]

dinsdag 2 april 2013 19:02

Acties:

Verwijderd

Hoe kan je zo'n s.m.a.r.t. log eigenlijk uitlezen net zoals RichZ heeft gedaan (wat je in zijn eerste post ziet).

dinsdag 2 april 2013 19:44

Acties:

Verwijderd

@Henshin: HDtune -> Health tabblad of CrystalDiskInfo. Bij laatstgenoemde worden de raw values in hexadecimaal weergegeven. In het menu kun je instellen dat dit decimaal moet zijn. Zo wordt 0000A9 opeens 169 decimaal en dat is natuurlijk veel gemakkelijker interpreteren.

dinsdag 2 april 2013 19:50

Acties:

RichZ

Keep burning!

Topicstarter

Verwijderd schreef op dinsdag 02 april 2013 @ 19:02:
Hoe kan je zo'n s.m.a.r.t. log eigenlijk uitlezen net zoals RichZ heeft gedaan (wat je in zijn eerste post ziet).

Of op een Synology NAS (of Linux) d.m.v. :

code:

1	smartctl --all /dev/hda1

dinsdag 2 april 2013 20:04

Acties:

Verwijderd

Ok laatste vraag. Ik wil tenslotte niet je topic overnemen

. Waar worden die logs opgeslagen? En worden die logs vanzelf opgeschoond? S.M.A.R.T. stond bij mij in het bios automatisch automatisch uitgeschakeld. Misschien toch maar eens aanzetten.

dinsdag 2 april 2013 20:19

Acties:

Verwijderd

smartctl -A /dev/hda1 is beter, dan krijg je enkel de SMART attributen; de rest is onzin. SMART in BIOS inschakelen heeft weinig zin. Dat is volgens mij weinig meer dan een SMART fail/pass check en dat is alleen maar lastig. Dan kun je een SMART failure krijgen door onbelangrijke zaken zoals een iets te hoge temperatuur, meer dan één kabelfout of dat soort geintjes. Terwijl je voor échte SMART failures (actieve bad sectors) gewoon keihard een SMART test PASSED! krijgt te zien. Kortom, vertrouw nooit op programma's die SMART analyseren; dat moet je zelf doen. Alle programma's doen het fout en interpreteren SMART niet zoals het hoort.