Hoeveel bedrijfsuren halen (jouw) harde schijven?

dinsdag 22 maart 2011 23:56

Acties:

x07 - License to Tweak.

Topicstarter

Ik heb in een oude server een paar schijven draaien die al weer aardig wat uurtjes gemaakt hebben en ik vraag me af hoeveel groter de kans daarmee wordt op onherstelbaar falen. Ik ben gewoon benieuwd wat de ervaringen van andere Tweakers zijn met de levensduur van hun schijven. Hoe lang gaan die mee bij jullie? Het is per slot van rekening goed te controleren met SMART utilities waarmee je de relevante gegevens kunt uitlezen.

Hoeveel uren hebben jouw lang(st)lopende schijven er op zitten? Wat is je ervaring met schijven die het begaven en weet je hoeveel uren/jaren die schijf in gebruik was geweest? Hou je zelf een grens aan voor het aantal bedrijfsuren waarna je een schijf vervangt? Waar baseer je dat dan op? Baseer je vervanging evt. (ook) op andere veranderende SMART parameters? Hoe monitor je die? Met dergelijke informatie kunnen we wellicht allemaal ons voordeel doen.

Voor dat servertje dat ik noemde worden twee PATA schijven gebruikt. Een Western Digital 6GB schijfje voor het OS en de applicaties en een Hitachi 250GB voor de data. Ik heb er SMART monitor software draaien (HDD Health) die na verloop van tijd op basis van extrapolatie aangeeft wanneer de SMART parameters de TEC (Threshold Exceed Condition) waarde zullen gaan overschrijden en wat de vroegste datum is dat dit zal gebeuren.

Er zitten 365x24=8.760 uur in een jaar. Als je het aantal draaiuren deelt door deze waarde weet je hoeveel bedrijfsjaren de schijf er op heeft zitten.

WDC WD64AA - 6GB - 30.300 uur = 3,5 jaar - Nearest TEC: 24-10-2018 (Power on hours count)!
HDT722525DLAT80 - 250GB - 41.000 uur = 4,7 jaar - Nearest TEC: 10-10-2023 (Spin-up time).

Volgens HDD Health zou de Hitachi schijf de TEC voor de Power on hours overschrijden op 24-5-2161.
Prima schijfje.

woensdag 23 maart 2011 00:02

Acties:

Zinu

dat is gewoon hoe ik rol

* Zinu gaat even offtopic...

Ik kan je vraag niet beantwoorden, maar ik heb wel een vraag over dat tooltje dat je noemt. ik heb dat net ook even gedownload (v3.3 beta volgens mij), maar waar kan ik die TEC zien?

woensdag 23 maart 2011 00:09

Acties:

Verwijderd

Ik heb hier nog oude Quantum schijven van 7,5GB in gebruik, reken maar uit hoe oud die zijn.
Helaas is op de levensduur geen enkel pijl te trekken, sommige schijven zullen jaren meegaan en anderen geven het vrij snel op. Zo heb ik schijven gehad die het binnen het jaar opgaven (Maxtor), maar ook schijven, zoals eerder gezegd, die het nog steeds doen (Quantum). Op het moment ben ik zeer tevreden over Hitachi, de oudste die ik hier heb draaien, zijn nu iets ouder dan 4 jaar en hebben er een flink aantal draaiuren opzitten. Deze schijven worden dagelijks toch wel gemiddeld een 8 uur per dag gebruikt.

woensdag 23 maart 2011 00:12

Acties:

Marzman

They'll never get caught.

Ik vervang een schijf als die stuk gaat. Belangrijke data sla ik dubbel op en staat in de Google Cloud of op Microsoft Skydrive. Mocht dit niet meer passen dan zouden foto's ook nog in een Flickr account kunnen.

Over de levensduur valt weinig te zeggen idd. De schijven die bij mij stuk gingen daarbij gebeurde dat ongeveer na een jaar. Ik heb ook schijven meer dan 10 jaar in gebruik heb gehad. De schijf in mijn mediaspeler die 24/7 aan staat (want uit is niet echt uit) zit er ook al weer wat jaartjes in en zat daarvoor in een veel gebruikte pc die ook vaak s'nachts aan bleef staan.

☻/ Please consider the environment before printing this signature
/▌
/ \ <-- This is bob. copy and paste him and he will soon take over the world.

woensdag 23 maart 2011 09:53

Acties:

heuveltje

KoelkastFilosoof

"algemene wijsheid" is dat een schijf meer problemen heeft van een keer aan en uit zetten, dan van 50 uur draaien.
In hoeverre die weisheid waarheid is weet ik niet

Wel weet ik dat de meeste servers jaren 24-7 kunnen draaien, maar de schijven het begeven wanneer dat ding opnieuw opgestart word

Maar persoonlijk ik vermoed dat oncontroleerbare externe invloeden ( bedrijfstemperatuur, kwaliteit lagers, schokken tijdens transportage, stofdeeltje dat is blijven zitten, etc) een veel grote invloed hebben dan alles wat je wel kunt beinvloeden of meten.

Dus komt het in feite gewoon neer op geluk hebben

(en een goed backup voor wanneer dat geluk opraakt ! )

Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d

woensdag 23 maart 2011 11:25

Acties:

CaptJackSparrow

x07 - License to Tweak.

Topicstarter

Zinu schreef op woensdag 23 maart 2011 @ 00:02:
* Zinu gaat even offtopic...

Ik kan je vraag niet beantwoorden, maar ik heb wel een vraag over dat tooltje dat je noemt. ik heb dat net ook even gedownload (v3.3 beta volgens mij), maar waar kan ik die TEC zien?

Ik gebruik versie 2.1 Beta - Build: 159 van HDD Health. Toen die 3.3 versie er was gekomen heb ik 'ge-upgrade' maar ik vond die latere versie een stuk onhandiger/minder informatief en ben weer teruggegaan naar de oudere versie. Ik weet niet waar e.e.a. precies zit in de 3.3 versie want juist de layout is helemaal omgegooid.

Het is wel zo dat de TEC data pas gegeven worden als het programma de nodige tijd gemonitord heeft want het moet veranderingen over de tijd waarnemen om extrapolaties te kunnen doen. Het geeft dan ook een betrouwbaarheidspercentage van de voorspelling weer die toeneemt naarmate het programma langer gemonitord heeft.

Ik heb dit topic overigens niet gestart om algemeen zaken m.b.t. betrouwbaarheid van harde schijven te bespreken of back-up beleid. Het is puur bedoeld om hier de zaken aan de orde te laten komen die ik in de TS had vermeld. Nogmaals:

Hoeveel uren hebben jouw lang(st)lopende schijven er op zitten? Wat is je ervaring met schijven die het begaven en weet je hoeveel uren/jaren die schijf in gebruik was geweest? Hou je zelf een grens aan voor het aantal bedrijfsuren waarna je een schijf vervangt? Waar baseer je dat dan op? Baseer je vervanging evt. (ook) op andere veranderende SMART parameters? Hoe monitor je die? Met dergelijke informatie kunnen we wellicht allemaal ons voordeel doen.

Het liefst ook met de modellen en uren erbij zoals ik ook gaf. Dat zijn harde gegevens die mensen kunnen vergelijken met hun eigen situatie/ervaringen.

Ik wou ook de nadruk leggen op servergebruik waarbij de schijven 24/7/365 draaien zoals bij de server die ik noemde het geval is alhoewel de schijven daarvoor ook nog wel enige tijd 'gewoon' zijn gebruikt maar het overgrote deel van de uren die ze gemaakt hebben zijn gemaakt in continubedrijf. De meeste onderbrekingen hierin zijn gekomen door stroomstoringen van het energienet.

PS.
Voor het geval Zinu of anderen de versie 2.1 nog ergens van ophalen (ik googlede even en zag torrents staan). De installer die ik bij Panterasoft heb gedownload is 922.885 bytes groot.
hddh.exe MD5: 7085c7bc476c9329bb1b7cd7ab366f31

[ Voor 5% gewijzigd door CaptJackSparrow op 23-03-2011 12:02 ]

woensdag 23 maart 2011 11:58

Acties:

heuveltje

KoelkastFilosoof

CaptJackSparrow schreef op woensdag 23 maart 2011 @ 11:25:
[...]

Het liefst ook met de modellen en uren erbij zoals ik ook gaf. Dat zijn harde gegevens die mensen kunnen vergelijken met hun eigen situatie/ervaringen.

Daar ga je nooit echt iets wijzer van worden

Zoals ik al eerder vermelde zijn er veel meer factoren van (groter) belang, dan het aantal gedraaide uren.
Daarnaast heb je een veel grotere sample size nodig dan die 2 tweakers die toevallig hetzelfde type hebben

Ik wou ook de nadruk leggen op servergebruik waarbij de schijven 24/7/365 draaien zoals bij de server die ik noemde het geval is alhoewel de schijven daarvoor ook nog wel enige tijd 'gewoon' zijn gebruikt maar het overgrote deel van de uren die ze gemaakt hebben zijn gemaakt in continubedrijf. De meeste onderbrekingen hierin zijn gekomen door stroomstoringen van het energienet.

Dat normale gebruik kan al van enorme invloed zijn

Daarnaast is zeker bij bedrijven ofwel de gehele server al afgeschreven, danwel de HD al vervangen door een grotere voor je op het punt komt dat de HD zelf aan het eind van zijn draaiuren zit

.
Vraag me trouwens ook af wat het nut van die 6gb schijf is, zet dat dan allemaal op dezelfde schijf !

Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d

woensdag 23 maart 2011 17:06

Acties:

Guru Evi

Hitachi HDS724040KLAT80 (400GB)
Power On Hours volgens SMART: 53211
Draait momenteel dus iewat meer dan 6 jaar aan een stuk. Heb er 14 van die nog steeds goed draaien.

Pandora FMS - Open Source Monitoring - pandorafms.org

woensdag 23 maart 2011 17:25

Acties:

oscardt

Ik weet niet hoe veel waarde je kan ontlenen aan de SMART waarden. Sure, als er waarden verkeerd staan is dit een indicatie dat er iets mis is met je schijf. Maar lang niet altijd kan je aan de SMART uitlezen of er iets mis is met de schijf.

Een interessante onderzoek naar de relatie tussen SMART en het falen van harde schijven is door Google gedaan.

Zie hier het onderzoek:http://static.googleusercontent.com/external_content/untrusted_dlcp/labs.google.com/en//papers/disk_failures.pdf

Ik haal twee stukjes uit de conclusie aan:
One of our key findings has been the lack of a consistent
pattern of higher failure rates for higher temperature
drives or for those drives at higher utilization levels.
Such correlations have been repeatedly highlighted
by previous studies, but we are unable to confirm them
by observing our population

en:

we find that failure prediction models based on SMART parameters
alone are likely to be severely limited in their prediction
accuracy, given that a large fraction of our failed drives
have shown no SMART error signals whatsoever. This
result suggests that SMART models are more useful in
predicting trends for large aggregate populations than for
individual components.

woensdag 23 maart 2011 18:55

Acties:

Guru Evi

Zoals hierboven gezegd, SMART waarden en temperatuurcontrole is waardeloos. Schijven gaan gewoon kapot. Ik beheer momenteel over 200TB aan schijven tussen de 250GB en 2TB, desktop en enterprise. Als een schijf langer blijft draaien dan 1 jaar dan heb je 90% kans dat die blijft draaien voor 5 jaar of langer. Het verschil tussen desktop en enterprise is dat de desktop schijven meer kans hebben op doodgaan tussen de 3 maand en 1 jaar van hun levensduur, geen verschil voor de eerste 3 maand (beide soorten hebben DoA, beide soorten gaan even snel fouten spugen) geen verschil daarna.

Dit is een enterprise schijf die momenteel ~1 jaar draait:

Error counter log:

	Errors Corrected by		Total	Correction	Gigabytes	Total
	ECC	rereads/	errors	algorithm	processed	uncorrected
	fast \| delayed	rewrites	corrected	invocations	[10^9 bytes]	errors
read:	856300391 \| 10	0	856300401	856300401	23439.229	1
write:	0 \| 0	0	0	0	2239.549	0

De uncorrected errors is het grootste probleem, die worden doorgegeven aan het besturingssysteem. Moet je maar zien op te lossen met een systeem zoals ZFS. Uit 26 identieke schijven zijn er 5 uncorrected read errors na 1 jaar.

[ Voor 16% gewijzigd door Guru Evi op 23-03-2011 19:01 ]

Pandora FMS - Open Source Monitoring - pandorafms.org

woensdag 23 maart 2011 20:02

Acties:

CaptJackSparrow

x07 - License to Tweak.

Topicstarter

Het onderzoek van Google is bekend. Het is niet zo dat kouder altijd beter is. Verder is ook bekend dat er een groep 'vroegfalende' schijven is die waarschijnlijk om wat voor reden dan ook van het begin af aan tot de 'zwakke broeders' behoorden. Dat falen binnen een jaar vaak zonder aankondiging kan gaan wil ik best aannemen. Maar dan blijft er een grote groep schijven over die wel in mijn interessesfeer valt. Hoe doen die schijven het na dat eerste jaar en hoe ga je daar mee om? En merk je dat nieuwere generaties schijven 'anders' zijn wat faalkans betreft dan oudere generaties schijven? Ook een heel interessante vraag wat mij betreft.

Voorbeeldje.

In die server zat oorspronkelijk een ander 6GB WD schijfje. Ik had eens op een computerbeurs voor iets van 2 euri per stuk nog twee andere 6GB WD schijfjes op de kop getikt en had de schijf in de server gekloond op die twee schijfjes zodat ze klaar lagen om de functie van de eerste schijf over te nemen. Een van die schijfjes had al flink wat uren en de ander was nog een jonkie qua draaiuren.

Ik heb dat HDD Healt dus draaien en ik kwam een keer thuis en zag toen dat er een hele serie meldingen van HDD Health stond die aangaven dat een bepaalde SMART parameter in snel tempo aan het verslechteren was. Ik ging dat prompt onderzoeken en toen bleek dat de C partitie al niet meer benaderbaar was maar de D partitie waar het OS met applicaties op draaide en waar actuele data op stond nog wel. Ik kon toen nog mooi alle actuele data veilig stellen en naar een van de gekloonde schijfjes overbrengen en nadat ik die schijfjes gewisseld had draaide ik weer vrolijk verder. Mooi dat dankzij de SMART monitoring alles uiteindelijk pijnloos verlopen was zonder dataverlies.

Wat mij betreft (mijn persoonlijke ervaring - steekproef van 1) is SMART monitoring dus nuttig. Let wel... MONITORING!!! Het verloop(!!!) van SMART parameters in de TIJD. Dat is wat dat HDD Health doet en rapporteert. Ik weet niet of uit dat Google rapport blijkt of ze de SMART parameters van al hun schijven over de tijd monitoren en van welke parameters maar op grond van mijn ervaringen lijkt het mij onwaarschijnlijk dat Google nooit het falen van een schijf zou kunnen zien aankomen door veranderende(!) SMART parameters (en ik weet, dat zeggen ze ook niet).

SMART zal zeker niet kunnen garanderen dat je nooit onvoorzien schijffalen zult meemaken maar in mijn ervaring is het nuttig. Aangezien het geen enkel nadeel heeft om zo'n utility te hebben draaien zal ik het dus altijd hebben lopen. Gebruik die informatie hoe je wilt.

woensdag 23 maart 2011 20:55

Acties:

heuveltje

KoelkastFilosoof

CaptJackSparrow schreef op woensdag 23 maart 2011 @ 20:02:
Ik weet niet of uit dat Google rapport blijkt of ze de SMART parameters van al hun schijven over de tijd monitoren en van welke parameters maar op grond van mijn ervaringen lijkt het mij onwaarschijnlijk dat Google nooit het falen van een schijf zou kunnen zien aankomen door veranderende(!) SMART parameters (en ik weet, dat zeggen ze ook niet).

Google gaat daar vermoedelijk geen moeite voor doen. Die wachten gewoon tot een server het om wat voor reden dan ook niet meer doet, dan trekken ze hem uit het rek en fixen dat probleem. Ondertussen vangen zijn miljoen redundante broertjes hem wel op. proberen te voorspellen kost veel geld en levert weinig tot niks op.

SMART zal zeker niet kunnen garanderen dat je nooit onvoorzien schijffalen zult meemaken maar in mijn ervaring is het nuttig. Aangezien het geen enkel nadeel heeft om zo'n utility te hebben draaien zal ik het dus altijd hebben lopen. Gebruik die informatie hoe je wilt.

Het zal in sommige gevallen wel lukken een crash te voorspellen, in andere niet.
Gewoon altijd zorgen voor een correcte back-up is je beste kans.

* heuveltje Die overigens ruim 2 jaar een HD in zijn server had zitten met iets van 2% smart health over. nooit een probleem mee gehad

Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d

woensdag 23 maart 2011 23:11

Acties:

Q

Au Contraire Mon Capitan!

Interne harde schijven

Ik draai alle relevante schijven redundant en of een schijf gaat falen monitor ik eigenlijk niet.

Ik heb zelf nog nooit 1 nuttige ervaring met SMART gehad. Als SMART iets aangaf was het of bogus, of al te laat.

Volgens mij is het vaak zo dat een schijf er meestal plotsklaps helemaal mee kapt of bad sectors gaat ontwikkelen. Bij dat laatste wordt hij snel genoeg uit de array gegooid.

Wat ervaringen van Tweakers verder zijn boeit niet want dat zijn slechts anekdotes en daar kun je niets uit afleiden. Dat alle Samsung Spinpoint F1 schijven die ik ooit heb gekocht (26+) het stuk voor stuk nog allemaal doen, wat kun je er van vinden? De steekproef is klein op de totale markt.

Mijn gevoelsmatige indruk, voor wat het waard is, is dat schijven juist heel lang mee gaan als ze in het begin niet al direct stuk gaan.

Zelf draai ik geen 24/7. De meeste schijven staan 90% van de tijd uit. Maar ze spinnen dus iedere keer op en warmen op vanaf een lage temperatuur naar een hogere. Wat voor invloed dat heeft tov 24/7 draaien? Wie zal het zeggen.

donderdag 24 maart 2011 10:12

Acties:

Admiral Freebee

Ik heb een keer een Western Digital schijf gehad die al na een paar weken de geest gaf. Hierbij ging de hoeveelheid reallocated sectors sterk omhoog, en de schijf werd ook trager en trager. SMART was hierbij nuttig om te kijken of er een probleem werd aangegeven (reallocated sector count).

Daarnaast ook een harde schijf van een laptop. Ook hier begon het met een aantal reallocated sectors, waarna er ook een aantal bestanden corrupt werden. Dit al na ongeveer een jaar.

Voor de rest ben ik alleen maar harde schijven tegengekomen die na langere tijd stuk gingen. Meestal gebeurde dit niet ineens, maar kwamen er steeds meer reallocated sectors. Ook hierbij was SMART dus handig om die waarde te kunnen nakijken.

Een handig programma vind ik Speedfan, aangezien je daarbij de SMART waarden kan vergelijken met gemiddeldes voor jouw harde schijf.

[ Voor 8% gewijzigd door Admiral Freebee op 24-03-2011 10:15 ]

donderdag 24 maart 2011 10:44

Acties:

joopv

Mijn disks draaien achter een Intel ICH9 controller in raid 0 en raid 1. Met als groot nadeel dat je geen toegang hebt tot s.m.a.r.t. informatie. Geen enkel smart tool kon iets uitlezen.

Of in ieder geval dat was zo tot voor kort. Naar aanleiding van dit topic heb ik nog eens rondgeneusd en wat blijkt: er is nu een tool "Intel solid state drive toolbox" waarmee je toch de smart data uit de disks kunt uitlezen. Ook al is het bedoeld voor SSD's, het werkt ook op normale HD's.

http://downloadcenter.int...Solid+State+Drive+Toolbox

Zowel de 2 320G WD's als de 2 1TB Hitachi's hebben na 6300 uur en 1500 spinups nog geen sector reallocaties of seek errors gehad. $_/-\o_$

Wat minder is dat de temperatuur van de 2 Hitachi's volgens dit tool 200 miljard graden is terwijl de 2 WD's 36 graden zijn. Zodadelijk toch maar even de stofzuiger pakken en de filters schoonmaken.

[ Voor 22% gewijzigd door joopv op 24-03-2011 11:06 ]

donderdag 24 maart 2011 11:15

Acties:

CaptJackSparrow

x07 - License to Tweak.

Topicstarter

Guru Evi schreef op woensdag 23 maart 2011 @ 17:06:
Hitachi HDS724040KLAT80 (400GB)
Power On Hours volgens SMART: 53211
Draait momenteel dus iewat meer dan 6 jaar aan een stuk. Heb er 14 van die nog steeds goed draaien.

Hebben die 14 allemaal een vergelijkbaar aantal uren gemaakt? Met 14 stuks is dat een redelijke samplegrootte. Het zou nog mooier zijn als je ook verloop van SMART parameters van die schijven zou hebben.

Q schreef op woensdag 23 maart 2011 @ 23:11:
Ik draai alle relevante schijven redundant en of een schijf gaat falen monitor ik eigenlijk niet.

Als je niet monitort hoe kun je dan beoordelen of monitoring zin heeft?

Ik heb zelf nog nooit 1 nuttige ervaring met SMART gehad. Als SMART iets aangaf was het of bogus, of al te laat.

Volgens mij is het vaak zo dat een schijf er meestal plotsklaps helemaal mee kapt of bad sectors gaat ontwikkelen. Bij dat laatste wordt hij snel genoeg uit de array gegooid.

Bad sectors zullen de reallocated sector count doen toenemen wat met SMART monitoring gedetecteerd kan worden.

Wat ervaringen van Tweakers verder zijn boeit niet want dat zijn slechts anekdotes en daar kun je niets uit afleiden. Dat alle Samsung Spinpoint F1 schijven die ik ooit heb gekocht (26+) het stuk voor stuk nog allemaal doen, wat kun je er van vinden? De steekproef is klein op de totale markt.

Als je het aantal Power on hours van al die schijven zou vermelden en dat zou hoog zijn zou dat aangeven dat die schijven dergelijke aantallen bedrijfsuren in elk geval potentieel kunnen halen. Iemand met een schijf die dan bijv. slechts de helft van dat aantal uren gedraaid heeft weet dan dat dit in principe geen reden hoeft te zijn om de schijf te vervangen als hij zich dat af zou vragen. Het is natuurlijk geen garantie maar alle relevante informatie kan iets bijdragen.

Mijn gevoelsmatige indruk, voor wat het waard is, is dat schijven juist heel lang mee gaan als ze in het begin niet al direct stuk gaan.

Dat vroegfalende schijven een aparte groep vormen is zeer waarschijnlijk maar gevoel is niet de beste basis voor welke beslissing of beleid dan ook. Meten is weten. SMART zal zeker niet altijd tijdig waarschuwen maar de ervaringen van Admiral FreeBee ondersteunen toch ook het nut van SMART monitoring. Het gaat dus wel om continue monitoring en niet af en toe zelf eens wat SMART waarden bekijken.

Zelf draai ik geen 24/7. De meeste schijven staan 90% van de tijd uit. Maar ze spinnen dus iedere keer op en warmen op vanaf een lage temperatuur naar een hogere. Wat voor invloed dat heeft tov 24/7 draaien? Wie zal het zeggen.

Dat is zeker 'anders'. Ik gaf al aan vooral geïnteresseerd te zijn in schijven die 24/7 in servers gebruikt worden juist omdat die de meeste uren maken en daarbij dat aantal bedrijfsuren dus eerder een factor van overweging kan worden. De grote schijven van tegenwoordig zullen door hun substantiële capaciteit ook niet echt snel obsoleet worden en zullen dus flink wat jaren mee kunnen gaan. Dan wordt het interessanter om op dat aantal uren te letten.

Speedfan is inderdaad nuttig vanwege de on-line analyse en vergelijking met hun database met gegevens van dezelfde schijven. Ik geloof niet dat het aan failure prediction doet maar gebruik het zelf niet constant en de versie die ik heb staan zal ook wellicht wat verouderd zijn.

Het niet kunnen uitlezen van SMART data in RAID arrays door de regulaire utilities is inderdaad hinderlijk. Dat Intel nu wel een utility biedt is een hele goede zaak. Ik ben benieuwd of die alleen werkt met ICHx controllers of ook met andere hardware.

Waar ik ook al jaren met smart

naar uitkijk is een utility die SMART data kan uitlezen van externe USB schijven. Ik ben er nog steeds niet achter of de USB interface dat absoluut onmogelijk zou maken. Ik meen te begrijpen dat het opvragen van SMART data via ATA commando's loopt en het zou me verbazen als daar beperkingen voor zouden zijn ingebouwd in de USB interface.

donderdag 24 maart 2011 11:43

Acties:

joopv

Q schreef op woensdag 23 maart 2011 @ 23:11:
Ik draai alle relevante schijven redundant en of een schijf gaat falen monitor ik eigenlijk niet.

Ik heb zelf nog nooit 1 nuttige ervaring met SMART gehad. Als SMART iets aangaf was het of bogus, of al te laat.

Volgens mij is het vaak zo dat een schijf er meestal plotsklaps helemaal mee kapt of bad sectors gaat ontwikkelen. Bij dat laatste wordt hij snel genoeg uit de array gegooid.

Zo simpel ligt het niet.

Magnetische degradatie toont zich in de vorm van read errors van sectoren. Een HD heeft zelf mechanismes aan boord om slechte secoren te remappen. Als een sector meerdere read's nodig heeft om de data zonder CRC fouten te lezen, of als een verify na write fout gaat kan de disk besluiten om die sector te remappen naar een andere op dezelfde cylinder.

Dat proces gaat helemaal transparant, het OS en/of (ingeval van RAID) de controller hoeft daar niks van te merken.

Mechanische degradatie kun je op dezelfde manier uitlezen met o.a. seek errors. Als de drive na een seek commando niet op de goede cylinder uit komt zal hij het nog een keer proberen - ook weer transparant voor het OS. Hetzelfde geldt voor langdurige of mislukte spinups, het overschrijden van temperatuur thresholds en zo nog vele andere variabelen.

Die tellers waar dit bijgehouden worden kun je dus met smart uitlezen, en als daar een trend in te zien is kun je een alarmbel af laten gaan en een disk vervangen nog voordat hij echt de laatste reserve sector in gebruik genomen heeft.

Een disk kan natuurlijk ook gewoon plotsklaps acuut stuk gaan - daar helpt geen smart tegen... Maar met smart kun je toch een groot deel van de failure modes van disks voorspellen.

donderdag 24 maart 2011 11:46

Acties:

Admiral Freebee

CaptJackSparrow schreef op donderdag 24 maart 2011 @ 11:15:
Waar ik ook al jaren met smart naar uitkijk is een utility die SMART data kan uitlezen van externe USB schijven. Ik ben er nog steeds niet achter of de USB interface dat absoluut onmogelijk zou maken. Ik meen te begrijpen dat het opvragen van SMART data via ATA commando's loopt en het zou me verbazen als daar beperkingen voor zouden zijn ingebouwd in de USB interface.

Crystaldiskinfo kan SMART data uitlezen van externe harde schijven die met USB of Firewire verbonden zijn. De gebruikte bridge chip moet het echter wel ondersteunen, en daar wringt het schoentje meestal. Ik heb in ieder geval twee behuizingen met een chip die de SMART gegevens doorgeven

donderdag 24 maart 2011 11:50

Acties:

Sir_Hendro

Ik heb zelf een negatieve ervaring met de WD20EADS schijven. Hiervan heb ik 2 stuks in mijn PC, niet tegelijk gekocht ofzo maar vertonen wel beide vanaf 4500 uur te hebben gedraait dat er veel realocated sectors & pending sectors op de schijven zijn. Vooral bij de 2e schijf was dat goed te merken want die werd spontaan mega traag. De eerste is reeds omgeruild de 2e moet nog op de RMA.

Mijn 2 nieuwe WD20EARS die ik erbij heb draaien nu iets over de 1000 uur en werken nog perfect. Mijn Intel X25 80GB SSD heeft met iets meer dan 2000 uur 3 realocated sectors en werkt verder nog steeds als een tiet.

woensdag 30 maart 2011 21:14

Acties:

Verwijderd

Helaas heb ik een abonnement op slechte schijven. Veel schijven gaan al binnen de garantieperiode stuk, soms zelfs binnen enkele dagen. Ik heb er een die al voor de vijfde maal onder garantie vervangen is.

[ Voor 13% gewijzigd door Verwijderd op 31-03-2011 21:21 ]

woensdag 30 maart 2011 21:19

Acties:

Brad Pitt

Sir_Hendro schreef op donderdag 24 maart 2011 @ 11:50:
Ik heb zelf een negatieve ervaring met de WD20EADS schijven. Hiervan heb ik 2 stuks in mijn PC, niet tegelijk gekocht ofzo maar vertonen wel beide vanaf 4500 uur te hebben gedraait dat er veel realocated sectors & pending sectors op de schijven zijn. Vooral bij de 2e schijf was dat goed te merken want die werd spontaan mega traag.

Same here. Dacht eerst wtf is er aan de hand met de pc. Absurd traag uitpakken en zo. Smart geeft op zich aan dat de schijf zogenaamd okay is maar de reallocted sector count is through the roof. Teleurstellend.

Nickname does not reflect reality

woensdag 30 maart 2011 21:27

Acties:

Verwijderd

Wij hebben op een paarhonderd servers misschien hooguit 10 defecte harddisks per jaar. De meeste harddisks houden het makkelijk de levensduur van een server vol. We hebben ook servers die al 1500 dagen non-stop hebben gedraaid. Op basis van zulke cijfers is er weinig zinnigs over te zeggen.

woensdag 30 maart 2011 21:53

Acties:

CaptJackSparrow

x07 - License to Tweak.

Topicstarter

Zonder monitoring en concrete getallen helaas niet nee.

donderdag 7 april 2011 14:53

Acties:

SpaceAce

Ik werk voor een NAS fabrikant, dus heb vaak te maken met RAID Arrays (Linux software RAID MDADM) die niet meer herkend worden. In 95% van de gevallen gaat het dan om een corrupt file system (EXT2/3/4 of XFS).

Oorzaak van het corrupte file system is altijd wel één of meerdere schijven die in een slechte staat zijn. Ik kan dan ook enkel uitgaan van de SMART waardes, en die geven dan ook altijd al problemen (Reallocated sectors en Current pending sectors).

In hoeverre schijven al problematisch zijn voordat de SMART dit aangeeft kan ik niet zeggen. Zodra mensen bij ons aankloppen zijn de schijven al in zo'n slechte staat dat de SMART waardes ook al duidelijk zijn.

Wel heb ik het idee dat met name de "green" schijven zoals WD EADS/EARS en Seagate LP het vaakst problemen geven. Al zijn deze in een 24/7 RAID in het algemeen niet aan te raden, met name door de error correctie die deze schijven hebben waardoor ze niet meer reageren op commando's van de SATA controller en ze daardoor uit het RAID gegooid worden. Men kijkt echter vaak naar de goedkoopste schijf (een HDD is toch een HDD...), maakt een RAID5 aan en is vervolgens kwaad als ze data kwijt zijn (RAID5 is toch een backup?!?!)

donderdag 7 april 2011 15:59

Acties:

Admiral Freebee

Verwijderd schreef op woensdag 30 maart 2011 @ 21:14:
Helaas heb ik een abonnement op slechte schijven. Veel schijven gaan al binnen de garantieperiode stuk, soms zelfs binnen enkele dagen. Ik heb er een die al voor de vijfde maal onder garantie vervangen is.

Toch eens je PSU nakijken dan

donderdag 7 april 2011 16:15

Acties:

joopv

WouterHelm schreef op donderdag 07 april 2011 @ 14:53:
Ik werk voor een NAS fabrikant, dus heb vaak te maken met RAID Arrays (Linux software RAID MDADM) die niet meer herkend worden. In 95% van de gevallen gaat het dan om een corrupt file system (EXT2/3/4 of XFS).

Oorzaak van het corrupte file system is altijd wel één of meerdere schijven die in een slechte staat zijn. Ik kan dan ook enkel uitgaan van de SMART waardes, en die geven dan ook altijd al problemen (Reallocated sectors en Current pending sectors).
[.....] Men kijkt echter vaak naar de goedkoopste schijf (een HDD is toch een HDD...), maakt een RAID5 aan en is vervolgens kwaad als ze data kwijt zijn (RAID5 is toch een backup?!?!)

Het lijkt me slim dat zo'n NAS op de een of andere pro-aktieve manier aan de buitenwereld laat weten dat een schijf in de problemen aan het raken is. Zit er geen speakertje op zo'n ding?

donderdag 7 april 2011 16:37

Acties:

SpaceAce

joopv schreef op donderdag 07 april 2011 @ 16:15:
[...]

Het lijkt me slim dat zo'n NAS op de een of andere pro-aktieve manier aan de buitenwereld laat weten dat een schijf in de problemen aan het raken is. Zit er geen speakertje op zo'n ding?

Als een schijf een I/O fout heeft krijg je wel een alarm (en mail als je dat instelt). Als een schijf dan uit een RAID valt en je vervangt deze schijf is het geen probleem om het RAID weer te rebuilden.

Echter is er wel een verschil tussen het RAID en het file system. Het RAID kan wel in orde zijn, maar als het file system beschadigd is kun je nog niet aan je data. Beschadigingen aan het file system zie je vaak pas nadat je een file system check hebt uitgevoerd.

Als de SMART waardes verslechteren zullen er geen piepjes of mails verstuurd worden. Dit is echter wel in de interface te controleren.

zaterdag 9 april 2011 13:58

Acties:

SMSfreakie

k heb een paar Hitachi's uit jan 2005 welke sindsdien 99% van de tijd aan de stroom hebben gehangen

404 Signature not found

Onderwerpen