I/O Errors, perfecte SMART waarden - Opslag en back-up

maandag 10 februari 2014 15:42

Acties:

Topicstarter

Heb sinds een week serieuze problemen met mijn server. Momenteel krijg ik at random binnen het uur na opstarten problemen. Voor meerdere schijven krijg ik op een bepaald moment een I/O error wanneer ik de schijf probeer te openen in Windows Verkenner, dit zonder daadwerkelijk bestanden te lezen of te schrijven. De problemen treden op in idle stand zonder (intensieve) disk access.

Wat ik gedaan heb

Ik heb de kabels gecontroleerd en deze zijn allemaal goed aangesloten. De server heeft in deze configuratie trouwens 2+ jaar gedraaid en 1 jaar sinds de laatste HD toevoeging.
Het OS (Windows Server 2012 R2) heb ik opnieuw geïnstalleerd maar dit heeft het probleem niet verholpen
SMART geeft voor geen enkele schijf fouten. Ik gebruik Stablebit Drive Scanner welke permanent controleert en via email meldingen verstuurd en heb ook met Crystal Disk Info de SMART uitgelezen. Geen problemen en geen enkele reallocated of pending sector. Bij boot voert het Bios ook een foutloze smart test uit;

De hardware

MSI P55A-GD65 met core i5 760 en 16GB DDR3 (4X4GB)
PSU: Bequit Purepower 450Watt
SATA Controllers: Intel (6ports, Marvell 2 ports, Jmicron 2x2 ports)
Harde schijven: 1x Samsung 250 Pro 128GB (OS Drive), 1x WD30EFRX (3TB), 1x Seagate ST4000VN000 (4TB), 9x WD30EZRX (3TB) en 2x Seagate Desktop Expansion Extern 4TB USB3.

maandag 10 februari 2014 17:30

Acties:

Verwijderd

Op welke controller zit de schijf? Heb je actieve utilities gebruikt voordat je de SMART hebt uitgelezen? Heb je de SMART gegevens veiliggesteld direct nadat je problemen had zoals I/O errors?

Bad sectors e.d. kunnen verdwijnen door een simpele disk scan of andere 'actieve' ingrepen. Windows installeren valt daar ook onder; als hierdoor bad sectors worden overschreven, verdwijnen deze direct en is ook ieder bewijs weg uit de SMART data.

Verder zou ik graag horen om welke schijf het gaat en een screenshot van CrystalDiskInfo lijkt me ook vrij normaal. Ik neem aan dat je nu geen problemen hebt?

dinsdag 11 februari 2014 19:37

Acties:

timofp

Topicstarter

Initieel waren het verschillende schijven welke het I/O probleem gaven, uiteindelijk is het probleem gisteren avond erger geworden, alle schijven werden nog herkend in het Bios maar Windows 'freezde" zodra het aanmeld scherm verscheen. (VM's waren echter wel nog bereikbaard).

Uiteindelijk kon ik horen dat één van de schijven niet wilde opspinnen, je hoorde duidelijk dat deze schijf steeds opnieuw wilde opspinnen.

De schijf was aangesloten op de intel controller. De schijf er uitghaald en de server draait sindsdien terug normaal. De schijf werkt echter perfect in een andere PC zonder Smart problemen (spin retry count is ook 0). Ik post morgen smart data, ben momenteel niet thuis.

Ik ben echter vrij zeker dat er nooit een smart error geweest is (ook geen welke vernietigd is). Stablebit Drivepool geeft namelijk onmiddelijk email melding bij smart errors. En dit werkte in het verleden foutloos (i.e. indien de temperatuur van een schijf de door mij ingestelde 42 graden oversteeg krijg ik onmiddellijk een email en als ik een schijf met gekende smart errors aansluit krijg ik ook onmiddellijk email meldingen). Prachtig systeem overigens.

Ik ga de schijf er nu nog 48 uren uit laten en kijken of het systeem zonder stabiel blijft, daarna kan ik proberen de schijf terug te plaatsen op een andere aansluiting en controller. De stroom aansluiting en sata aansluiting werken overigens wel op een andere schijf.

woensdag 12 februari 2014 11:52

Acties:

Verwijderd

Als je het problemen gisteravond nog had, waarom dan niet eventjes een SMART uitdraai maken? Nu heeft het al geen zin meer, en moet je weer wachten totdat je opnieuw problemen krijgt voordat je een nieuwe poging kunt wagen.

Ik ben echter vrij zeker dat er nooit een smart error geweest is

Wat jij met 'error' bedoelt, wordt een SMART failure genoemd. Dat gebeurt pas bij veertigduizend bad sectors bijvoorbeeld, of honderdduizenden kabelfouten. Een error is dus niet hetzelfde als failure.

ook geen welke vernietigd is

Dat kun je nooit weten. Simpelweg Windows booten kan je SMART gegevens al veranderen, en daarmee bad sectors verhullen die in het verleden wel degelijk problemen hebben gegeven.

Het feit dat je maar heel spaarzaam de SMART hebt uitgelezen en niet DIRECT nadat je problemen hebt ervaren, betekent dat je geen betrouwbare SMART gegevens meer hebt. De tip is dus: heb je problemen, ga dan DIRECT de SMART uitlezen en bewaren; zonder dingen tussendoor te doen zoals een healthscan of reboot. Alles wat de hardeschijf doet kan de SMART doen veranderen.

Stablebit Drivepool geeft namelijk onmiddelijk email melding bij smart errors.

Waarschijnlijk kijkt die enkel naar SMART failures waarbij de Current waarde slechter is dan de Threshold. Als dat klopt, heb je niets aan deze software.

woensdag 12 februari 2014 17:52

Acties:

timofp

Topicstarter

Verwijderd schreef op woensdag 12 februari 2014 @ 11:52:
Als je het problemen gisteravond nog had, waarom dan niet eventjes een SMART uitdraai maken? Nu heeft het al geen zin meer, en moet je weer wachten totdat je opnieuw problemen krijgt voordat je een nieuwe poging kunt wagen.

Toen ik het probleem had freezde windows, dus ik kon enkel smart data uitlezen door de schijf in een andere pc te steken, daar had ik die avond geen tijd voor en dit heb ik vandaag gedaan, de schijf is ondertussen niet gebruikt, dus voor het uitlezen van de smart data maakt het denk ik geen verschil of ik dit eergisteren of vandaag gedaan had.

Wat jij met 'error' bedoelt, wordt een SMART failure genoemd. Dat gebeurt pas bij veertigduizend bad sectors bijvoorbeeld, of honderdduizenden kabelfouten. Een error is dus niet hetzelfde als failure.

[...]

Waarschijnlijk kijkt die enkel naar SMART failures waarbij de Current waarde slechter is dan de Threshold. Als dat klopt, heb je niets aan deze software.

Het Bios of Windows geeft inderdaad enkel melding indien de status 'SMART failure' is. Maar Stablebit Scanner geeft wel degelijk voor één pending of reallocated sector al een melding via email. Hetzelfde met kabelfouten, bij 1 kabelfout wordt een waarschuwingsmail verstuurd. Data wordt overigens elke minuut gepolled. Dus tenzij de fout binnen een minuut is ontstaan en terug verdwenen, de fout is ontstaan voor of tijdens het booten en verdwenen is voor de service gestart ben ik vrij zeker dat er geen smart error geweest is.

Hier de SMART data vand e problematische schijf.

WDC WD30EZRX-00MMMB0
----------------------------------------------------------------------------
Model : WDC WD30EZRX-00MMMB0
Firmware : 80.00A80
Serial Number : WD-WCAWZ1962564
Disk Size : 3000,5 GB (8,4/137,4/3000,5/3000,5)
Buffer Size : onbekend
Queue Depth : 32
# of Sectors : 5860533168
Rotation Rate : onbekend
Interface : Serial ATA
Major Version : ATA8-ACS
Minor Version : ----
Transfer Mode : SATA/600
Power On Hours : 8230 uren
Power On Count : 940 keer
Temparature : 26 C (78 F)
Health Status : Goed
Features : S.M.A.R.T., 48bit LBA, NCQ
APM Level : ----
AAM Level : ----

-- S.M.A.R.T. --------------------------------------------------------------
ID Cur Wor Thr RawValues(6) Attribute Name
01 200 200 _51 000000000000 Read Error Rate
03 143 139 _21 000000002658 Spin-Up Time
04 _98 _98 __0 000000000BB1 Start/Stop Count
05 200 200 140 000000000000 Reallocated Sectors Count
07 200 200 __0 000000000000 Seek Error Rate
09 _89 _89 __0 000000002026 Power-On Hours
0A 100 100 __0 000000000000 Spin Retry Count
0B 100 100 __0 000000000000 Recalibration Retries
0C 100 100 __0 0000000003AC Power Cycle Count
C0 200 200 __0 000000000200 Power-off Retract Count
C1 195 195 __0 00000000431F Load/Unload Cycle Count
C2 126 109 __0 00000000001A Temperature
C4 200 200 __0 000000000000 Reallocation Event Count
C5 200 200 __0 000000000000 Current Pending Sector Count
C6 200 200 __0 000000000000 Uncorrectable Sector Count
C7 200 200 __0 000000000000 UltraDMA CRC Error Count
C8 200 200 __0 000000000000 Write Error Rate

Voorlopig lijkt het probleem opgelost zo lang ik de schijf niet meer in bouw en omdat de schijf in een andere PC zonder problemen werkt ga ik deze dus gewoon in die andere PC gebruiken, kan ik ineens een 4TB model in de server steken.

woensdag 12 februari 2014 18:07

Acties:

Verwijderd

timofp schreef op woensdag 12 februari 2014 @ 17:52:
Het Bios of Windows geeft inderdaad enkel melding indien de status 'SMART failure' is. Maar Stablebit Scanner geeft wel degelijk voor één pending of reallocated sector al een melding via email. Hetzelfde met kabelfouten, bij 1 kabelfout wordt een waarschuwingsmail verstuurd.

Oke. Het probleem is wel; Current Pending Sector kan heel snel weer naar 0 gaan. Bewijs kan zo heel snel verloren gaan; wat je wilt weten is of Current Pending Sector altijd 0 is geweest of dat het tijdens problemen wel degelijk is opgelopen. Bij kabelproblemen (UDMA CRC Error Count) is het makkelijker; daarvan wordt de raw waarde nooit lager. Een waarde van 0 betekent dus ook dat je nooit corruptie door een slechte kabel hebt ondervonden.

Hier de SMART data vand e problematische schijf.

Die ziet er nu prima uit. Nog eens uitlezen wanneer je problemen hebt is eigenlijk het enige wat ik kan aanraden.

Heb je andere mogelijke oorzaken al uitgesloten? Bijvoorbeeld, heb je al 24 uur lang MemTest86+ gedraaid? Een 'freeze' krijg je niet zomaar natuurlijk; daar moet een oorzaak voor zijn. De hardeschijf is logisch verdachte gezien je foutmelding.