SMART: hoge UDMA CRC error count en write error count - Opslag en back-up

vrijdag 7 juni 2013 01:37

Acties:

Topicstarter

Zoals de titel al zegt: ik heb in mijn laptop hardeschijf (xps 1640) last van een hoge Ultra DMA CRC error count en write error count.

Nadat twee weken terug mijn laptopmoederbord onder garantie vervangen is met een refurbished, is volgens mij dit probleem op komen spelen.
Elders op het forum las ik dat dit mogelijk komt door kabelproblemen. Vanwege het gebruik in een laptop is de satakabel helaas niet zo eenvoudig te vervangen. Maw. Zou dit komen door kabelproblemen, of misschien toch door een andere oorzaak (defecte controller op refurbished mobo?)

wat mij wel duidelijk is, is dat bij schrijven naar de HDD de UDMA en write error count aardig snel oplopen. Tijdens het uitvoeren van Seatools long test steeg de UDMA met 6000 punten per minuut....

mijn vragen zijn: Wat zijn de eventuele gevolgen voor de hardeschijf en de data hierop?
zou ik er verstandig aan doen om hier iets aan te doen?

hieronder een printscreen van de smart data. Afbeeldingslocatie: http://i1294.photobucket.com/albums/b617/BerendOenema/smartdata_zpsbd3e69f7.png

Afbeeldingslocatie: http://i1294.photobucket.com/albums/b617/BerendOenema/smartdata_zpsbd3e69f7.png

[ Voor 11% gewijzigd door HBSVDK op 07-06-2013 01:39 ]

vrijdag 7 juni 2013 14:17

Acties:

Omisys

Als ik het goed onthouden heb betekent dat een slechte verbinding. Daar lijkt het wel op aangezien je temperatuur ook een hele aparte waarde heeft, als die schijf echt zoveel graden celcius zou zijn denk ik dat je niet graag naast je pc had gezeten! Ook heb je onmundig veel write errors. Ik zou als eerste de verbinding controleren als ik jou was.

edit: Als antwoord op je vraag uit je startpost, ik zou hier wel naar laten kijken ja. Misschien kan je het even testen met een andere harde schijf erin om uit te sluiten dat het daaraan ligt als je die mogelijkheid hebt, maar anders zou ik hem maar weer even opsturen.

[ Voor 28% gewijzigd door Omisys op 07-06-2013 14:20 ]

vrijdag 7 juni 2013 14:21

Acties:

HBSVDK

Topicstarter

Ik zal idd de kabels even controleren. En even in een de schijf even in een andere pc steken. Hopelijk loopt de teller dan niet op. kabelproblemen worden dan wel heel aannemelijk.

Hebben deze hoge waarden ook consequenties voor de betrouwbaarheid van de schijf?
wellicht dat ik deze in de toekomst ga vervangen met een ssd. Deze schijf in een externe 2.5 behuizing. Alleen dan is juist betrouwbaarheid wel erg belangrijk...

vrijdag 7 juni 2013 14:24

Acties:

Verwijderd

Je hebt meer dan 31 miljoen kabelfouten (UDMA CRC Error Count). Kortom: vervang je SATA datakabel!

De waarde van UDMA CRC Error Count zal nooit meer omlaag gaan. Maar deze hoort niet meer te stijgen nadat je de kabel hebt vervangen.

De Write Error Rate is onschuldig, dit betreffen schrijfacties die overnieuw moeten worden uitgevoerd. Dat levert geen merkbaar probleem op, tenzij de rate (ratio) enorm hoog is, iets wat je eigenlijk alleen kunt aflezen aan de genormaliseerde waarde. Deze is in jouw geval nog steeds 100 dus hieraan kun je niet afleiden dat er een probleem is op dit vlak.

Tot slot je temperatuur, deze is binary encoded. Je temperatuur is dus niet 214 miljard graden, maar dat grote getal is een manier van opslag van meerdere variabelen, zoals laagst gemeten temperatuur en hoogst gemeten temperatuur en huidige temperatuur weergegeven in één getal (of eigenlijk 8-bits). De weergave van CDI is decimaal ofwel hexadecimaal. Maar de 38 graden temperatuur is de juist gedecodeerde temperatuur hoogstwaarschijnlijk.

Verder wil ik opmerken dat de implementatie van SMART in jouw Toshiba schijf niet de beste is. Bij andere schijven is deze veel beter. In het bijzonder mist jouw schijf de belangrijkste SMART-attribuut: Current Pending Sector.

vrijdag 7 juni 2013 14:26

Acties:

Omisys

Oke, dat van de temperatuurwaarde wist ik niet, mijn smart geeft namelijk gewoon 31 aan.

vrijdag 7 juni 2013 14:36

Acties:

DCG909

Bij mijn laptop HDD staat de current en worst op 200 maar de raw op 0 (bij raw staat het volgens mij ook hexadecimaal (met cijfers en letters, if I'm correct)).
Is dit dan erger of slechter?

(misschien is een handleiding hoe tools als crystaldiscinfo te gebruiken en te interpreteren handig als sticky?)

vrijdag 7 juni 2013 14:45

Acties:

Verwijderd

DCG: ik zal SMART uitvoerig behandelen in mijn storageblog.

Maar in zijn algemeenheid moet je weten dat de genormaliseerde waarden die altijd tussen 0 en 255 in liggen (8-bit) betekenen: hoe hoger, des te beter. Een waarde van 200 of 100 is vaak de best mogelijke waarde. Zodra de waarde zakt onder de Threshold-waarde, geldt dit attribuut als gefaald.

Hardeschijven die SMART op de juiste manier implementeren, zouden bij een temperatuur van 38 (en max 42) graden moeten laten zien:

Temperature
current: 62 (100 - 38 = 62)
worst: 58 (100 - 42 = 58)
threshold: 45 (100 - 65 = 45)

In dit voorbeeld begint de teller op 100. Sommige fabrikanten gebruiken 150 als startpunt om zo meer dan 100 graden Celsius te kunnen weergeven.

Voorbeeld:

Afbeeldingslocatie: http://blog.daminion.net/wp-content/uploads/2012/02/crystaldiskinfo-screenshot.gif

Afbeeldingslocatie: http://blog.daminion.net/wp-content/uploads/2012/02/crystaldiskinfo-screenshot.gif

In dit geval is de genormaliseerde waarde 65, wat dus overeenkomt met 35 graden Celsius. De worst-waarde is 49 wat overeenkomt met 51 graden Celsius. Terwijl 55 graden de maximaal toegestane temperatuur is. Merk op dat Airflow temperature bij 100 genormaliseerd begint, terwijl Temperature in dit geval bij 150 begint. Maar beide geven dezelfde waarden aan.

Het vervelende is dat SMART zo slecht gestandaardiseerd is. Elke implementatie kent ander gedrag. Vaak moet je een beetje gokken wat de waarden betekenen, of je moet specifiek kennis hebben hoe de waarden zijn geïnterpreteerd. Het kan hierbij helpen om naar de SMART-output te kijken van hardeschijven van hetzelfde type.

[ Voor 35% gewijzigd door Verwijderd op 07-06-2013 14:50 ]

vrijdag 7 juni 2013 15:20

Acties:

DCG909

Ah, ok.
Maar er is dus geen tolerantie voor bijv. end-to-end error's? (waarde voor current en worst is 100, threshold is 99) (weet zo 1,2,3 niet wat het is, vermoed iets met een data blok)

Wat betekent het eigenlijk als een current dan boven een worst staat? dat het beter werkt dan zou moeten?
(read error rate current: 119 worst: 99)

Hmm, mij HDD wordt wel warm... 48 graden in een alienware M17x R4.

Zit al te wachten op die blogs

Ook op die van de SSD's. (moet ik wel over zeggen dat SSD's dan risico voller zijn in een desktop... geen accu om op terug te vallen oid en als je gaat overclocken, dan crashed of hangt het hele zooitje ook wel eens in het test proces

In alle situaties verlies je je spanning op de SSD..)

vrijdag 7 juni 2013 16:01

Acties:

Twister336

Verwijderd schreef op vrijdag 07 juni 2013 @ 14:45:
Het vervelende is dat SMART zo slecht gestandaardiseerd is. Elke implementatie kent ander gedrag. Vaak moet je een beetje gokken wat de waarden betekenen, of je moet specifiek kennis hebben hoe de waarden zijn geïnterpreteerd.

Klopt. Het grote probleem met SMART is dat elke fabrikant zelf mag kiezen wat de betekenis is van de parameters.
Jouw voorbeeld van de temperatuursweergave klopt voor veel schijven maar niet bij mijn Hitachi.
Daarbij wordt de formule 268 - temperatuur * 3 gebruikt. De worst waarde is ook altijd hetzelfde als de current waarde.

Er bestaat een veel beter alternatief voor SMART dat stilaan toch in gebruik wordt genomen, nl. Device Statistics. Dit is de output van mijn Hitachi:

HD Tune Pro: Hitachi HDS724040ALE640 Drive statistics

Parameter Value
General statistics
Power cycle count 361
Power on hours 748
Sectors written 7817893430 (4002 gB)
Write commands 30545440
Sectors read 139174390 (71 gB)
Read commands 1032548
Rotating media statistics
Spindle power on hours 746
Head flying hours 746
Read load events 363
Reallocated sectors 0
Read recovery attempts 0
Mechanical start failures 0
General error statistics
Uncorrectable errors 0
Command errors 0
Temperature statistics
Current temperature 44°C
Average short term temperature 38°C
Average long term temperature 36°C
Highest temperature 45°C
Lowest temperature 14°C
Highest short term temperature 38°C
Lowest short term temperature 25°C
Highest long term temperature 36°C
Lowest long term temperature 25°C
Time in over-temperature 0
Specified maximum operating temperature 60°C
Time in under-temperature 0
Specified minimum operating temperature 0°C
Transport statistics
Hardware resets 1810
Asynchronous Signal Recovery events 1094
Interface CRC errors 0

In tegenstelling tot SMART zijn al deze gegevens wel gestandaardiseerd en is er geen enkele ruimte voor interpretatie.

Aan de TS: ik zou een snelheidstest uitvoeren want dit hoge aantal fouten moet volgens mij een dramatisch effect op de snelheid hebben.

vrijdag 7 juni 2013 17:36

Acties:

Verwijderd

DCG909 schreef op vrijdag 07 juni 2013 @ 15:20:
Ah, ok.
Maar er is dus geen tolerantie voor bijv. end-to-end error's? (waarde voor current en worst is 100, threshold is 99) (weet zo 1,2,3 niet wat het is, vermoed iets met een data blok)

End-to-end data integrity geeft weer de datacorruptie-fouten in het electronische gedeelte van een hardeschijf. Veel fouten in dit verband duidt meestal op corruptie in de DRAM-chip van de hardeschijf of SSD. In de meeste gevallen is dit zo ontworpen dat de genormaliseerde waarde nooit onder de threshold kan raken, en dus nooit officiëel zal falen. Door pariteit zal de corruptie worden opgemerkt en zal de I/O-actie opnieuw worden uitgevoerd. Het resultaat is een trager opslagapparaat, zeker als de corruptie consequent is door een deels defecte DRAM-geheugenchip. Ook bestaat de kans op meerdere fouten die door de pariteitscontrole heenkomen.

Als enkel het absoluut aantal end-to-end errors worden getoond, is dat niet heel nuttig. Veel nuttiger is als de drive een rate aangeeft, in de vorm van een genormaliseerd getal. Zoals Current 48 Worst 38. Ik heb een schijf met Current 1 en Worst 1 op dit gebied, zeer waarschijnlijk veroorzaakt doordat de DRAM-chip continu corruptie vertoont. Maar die kun je niet vervangen op een hardeschijf. Hij doet het nog wel, zij het minder betrouwbaar. Voor ZFS geen enkel probleem. Die heeft zijn eigen checksums onafhankelijk van het opslagapparaat.

Wat betekent het eigenlijk als een current dan boven een worst staat? dat het beter werkt dan zou moeten?
(read error rate current: 119 worst: 99)

Dat is vrij simpel: current is de huidige waarde, worst is de slechtst gemeten waarde ooit. Bij temperatuur kan dat zijn 39 graden nu, maar 54 graden als slechtste waarde ooit gemeten.

Hmm, mij HDD wordt wel warm... 48 graden in een alienware M17x R4.

Dat is wel warm, en komt vaak omdat de hardeschijf zijn warmte niet goed kwijt kan. Een SSD in een dergelijke compacte laptop is daarom een beter idee vind ik. Maar het kan nog veel extremer, een laptop die ik tijdelijk gebruike als server liet de temperatuur oplopen tot boven de 77 graden. De hardeschijf was na een enkele nacht al vol met meer dan tienduizend bad sectors. Oeps!

Zit al te wachten op die blogs

Ben er hard mee bezig, wordt weer een mooi stukje al zeg ik het zelf.

Verwacht hem maar rond acht/negen uur 's avonds.

Update: tada... CiPHER's Storageblog: SSD betrouwbaarheid

Twister336 schreef op vrijdag 07 juni 2013 @ 16:01:
Klopt. Het grote probleem met SMART is dat elke fabrikant zelf mag kiezen wat de betekenis is van de parameters.
Jouw voorbeeld van de temperatuursweergave klopt voor veel schijven maar niet bij mijn Hitachi.
Daarbij wordt de formule 268 - temperatuur * 3 gebruikt. De worst waarde is ook altijd hetzelfde als de current waarde.

Dat is dan niet hoe het 'hoort'. Vooral dat laatste, dat de worst gelijk is aan current is niet hoe SMART is bedoeld. En dat je de temperatuur maar in een veelvoud van 3 graden mag aflezen slaat nergens op. Overigens kan het niet helemaal kloppen wat je zegt, want dan zou bij 0 graden de waarde 268 moeten zijn. De genormaliseerde waarde is 8-bits en kan dus maximaal 255 groot zijn. Dat zou betekenen dat de minimum weergegeven waarde 5 graden Celsius is in plaats van 0 graden.

Er bestaat een veel beter alternatief voor SMART dat stilaan toch in gebruik wordt genomen, nl. Device Statistics. Dit is de output van mijn Hitachi:
(..)
In tegenstelling tot SMART zijn al deze gegevens wel gestandaardiseerd en is er geen enkele ruimte voor interpretatie.

Interessant! Zelf nog niet mee gespeeld.

vrijdag 7 juni 2013 20:57

Acties:

HBSVDK

Topicstarter

Allereerst erg bedankt voor de erg interessante info, meedenken en alle antwoorden.

Ohja Cipher, die Smart-info blog zal ik zeker lezen, je vorige SSD blog was ook erg leerzaam!

Je hebt meer dan 31 miljoen kabelfouten (UDMA CRC Error Count). Kortom: vervang je SATA datakabel!

Ik heb de hardeschijf vandaag in twee andere pc's gehad. De teller bleef net zo hard doorlopen. Maw, de hardeschijf speelt absoluut een rol. En waar Cipher het hieronder over defect dram heeft, zal ik daar ook vast last van hebben.
de teller loopt extra hard op bij schrijven naar de hardeschijf....

als die schijf echt zoveel graden celcius zou zijn denk ik dat je niet graag naast je pc had gezeten! Ook heb je onmundig veel write errors. Ik zou als eerste de verbinding controleren als ik jou was.

klopt, hij wordt wel aardig warm, maar een eitje kan ik er nog niet op bakken. ik heb dus nooit zoveel aandacht hieraan besteed: hij deed het er altijd prima om: dus het was vast weinig-zeggend..

Aan de TS: ik zou een snelheidstest uitvoeren want dit hoge aantal fouten moet volgens mij een dramatisch effect op de snelheid hebben.

Ja, ik had laatst al een crystaldiskmark gedaan, en toen viel me al op dat de sequentiele snelheden vrij laag waren(80MB/s). bestanden van de ene partitie naar de andere schrijven gaat de laatste tijd niet heel snel. Heeft er vast mee te maken. De raw value UDMA loopt tijdens deze acties altijd enorm op (tot 6000/min)

Dus nav de problemen en jullie opmerkingen Dell maar even gebeld. Wat een fantastische klantenservice!

(hulde!) Ze sturen me een nieuwe hardeschijf op. De satakabel/converter heb ik helaas niet kunnen controleren omdat andere laptopschijven met hun windows niet wilden opstarten. Gezien ook vaak kabelproblemen een hoge UDMA veroorzaken, wordt ook deze nieuw meegestuurd. Al met al, zullen hopelijk een nieuwe HDD en kabeltje de boel moeten oplossen.

gek genoeg, stond deze reactie eerst in een ander topic... namelijk S.M.A.R.T. - uncorrectable sector - To RMA or not?

woensdag 19 juni 2013 17:48

Acties:

HBSVDK

Topicstarter

Klein bumpje:

de kabel is vervangen. HDD is ook nieuw: en de teller begint weer vrolijk opnieuw te tellen. Zowel de UDMA CRC en de write error rate tikken heel snel door. En tijdens schrijven/benchmarken loopt de teller nog steeds extreem snel op.

Zou het kunnen komen door een sata controller-issue? voordat ik een nieuw Mobo in de laptop kreeg had ik er geen last van....

woensdag 19 juni 2013 18:09

Acties:

Verwijderd

Wat bedoel je precies met:

HDD is ook nieuw

Bedoel je dat je een nieuw exemplaar hardeschijf hebt?

Je zei dat je de hardeschijf ook in een andere computer had geprobeerd. Dat is erg vreemd, want óf het is de kabel, óf het is de SATA controller, óf het is de hardeschijf zelf. Nu lijk je alle combinaties te hebben uitgesloten, maar nog steeds heb je last van UDMA CRC Error Count?

Kun je precies op een rij zetten wat je nu hebt uitgeprobeerd?

Heb je een andere SATA poort geprobeerd?

donderdag 20 juni 2013 15:22

Acties:

HBSVDK

Topicstarter

Het gaat om een Laptop: Geen andere sata poort die ik kan proberen.

Nieuwe hardeschijf (dus nieuw uit garantie gestuurd gekregen (geen refurbishd disk: de smart waarden stonden nog op 0))
Nieuwe sata-invertor kabel gekregen: probleem blijft (vorige week ontvangen)
Nieuwe hardeschijf dus: probleem blijft.(vorige week ontvangen)
Nieuw moederbord gekregen (4 weken terug nav een videokaart probleem: probleem van de error rate is meteen daarna ontstaan)

de HDD die ik terug gestuurd heb, had ik in een 7 jaar oude pc geprobeerd. Daar bleef de error rate als ik me herriner doorlopen. (De sata kabels waren ook al vrij oud: dus kan zo maar zijn dat die kabels ook brak waren) De nieuwe schijf heb ik niet kunnen testen in een andere pc. Maar lijkt mij dat die wel goed is.

donderdag 20 juni 2013 15:56

Acties:

Verwijderd

Maar de oude schijf had je wel getest in een andere pc? En daar liep de UDMA Error Count ook op? Als dat niet zo is, dan ligt het probleem duidelijk bij je laptop. Maar aangezien ik dacht dat je ook kabelproblemen had bij die andere pc, had ik die mogelijkheid eerder uitgesloten.

Het kan natuurlijk zijn dat je niet één maar twee problemen hebt: een probleem met de SATA poorten van je laptop én een kabelprobleem in die andere pc.

Het beste kun je dat nog een keer proberen, dat de schijf het in een andere computer wel goed doet. Dus een error scan starten en voor en erna de SMART controleren of UDMA CRC Error count verder is opgelopen ja of nee. Als de error counter niet verder oploopt, heb je gedurende de test geen kabelfouten gehad.

woensdag 10 juli 2013 00:28

Acties:

HBSVDK

Topicstarter

Ondertussen de PC bij dell geweest: al 2x HDD vervangen: probleem blijft. Satakabel vervangen: probleem blijft. Maw, de UDMA CRC counter loopt nog onveranderd extreem hard op (met name bij veel schijfactiviteit). Bovendien loopt de Write error rate nog hader op. (lees: UDMA en write error rate tot ongeveer 6000 errors per minuut)

Wat er nog kan gebeuren, is het moederbord (met daarop de controller) laten vervangen (zit garantie op)

Alleen, omdat hij daar net 1 dag vandaan komt, en ik mijn pc niet graag kwijt ben, moet het wel de moeite waard zijn.

Dus mijn vraag: wat voor consequenties heeft een extreem snel oplopende UDMA counter en een extreem snel oplopende write error rate?
vastlopers? crashende windows? in welke richting moet ik denken?? Heb overigens wel het idee dat programmas soms blijven hangen...
Ik ben misschien in de toekomst van plan een Crucial M500 erin te plaatsen. Zou dit misschien een goede reden zijn om het te laten repareren?

woensdag 10 juli 2013 05:33

Acties:

Verwijderd

Heb overigens wel het idee dat programmas soms blijven hangen...

Dit dus, en uiteindelijk een crash. Het is niet fijn om een computersysteem te hebben wat gewoon problemen heeft, lijkt mij. Een oplopende UDMA CRC Error counter is een acuut probleem.