Schijven worden uit AMD RAID gegooid

Pagina: 1
Acties:

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Hallo tweakers,

Ik zit met een kleine uitdaging met mijn systeem; ik heb de afgelopen week tot twee keer toe een RAID Failure. Vorige week was er 1 schijf uit mijn 4-schijfs RAID 10 array gegooid. Deze was via AMD RAIDXpert terug te vinden als een JBOD schijf. Verwijderen van dit volume zorgde voor automatisch herstel.

Kan een keer gebeuren dacht ik nog; maar vandaag kreeg ik de melding dat er zelfs twee schijven uit de Array gegooid waren. Gelukkig de goede twee blijkbaar, want het systeem startte nog wel op.
Weer in RAIDXpert gedoken; en deze keer twee JBOD disks.

Ook deze weer verwijderd, en het herstellen is weer begonnen.

Ik krijg hier een beetje de kriebels van. Blijkbaar is er iets niet helemaal in de haak. Alleen; hoe kom ik hierachter? RAIDXpert zegt dat de SMART status van de disks Healthy is. Heb schijfcontrole uitgevoerd, en ook hier geen issues.

Wat kan ik nog doen om een dergelijke failure in de toekomst te voorkomen?

Ter info, gaat om een AMD780g bordje, met 4 Samsung 1tb disks in raid 10 op de ingebouwde RAID controller. Crystaldiskinfo en consorten kunnen niet overweg met de AMD RAID, en ik kan zodoende niet verder de diepte in dan de Healthy status :(

[ Voor 5% gewijzigd door MikeyMan op 13-12-2013 18:45 ]


Verwijderd

CrystalDiskInfo kan niet je schijven zien? Vreemd, meestal lukt dat wel. Maar in dat geval, boot even een Ubuntu Linux live USB-stick en maak daar een print van de SMART. Dat kan via 'disks' maar ook via de command line (Terminal):

sudo apt-get install smartmontools
smartctl -A /dev/sda
smartctl -A /dev/sdb
smartctl -A /dev/sdc
smartctl -A /dev/sdd

Totdat je de SMART veilig hebt gesteld moet je absoluut niets actiefs zien. Je hebt nu al herstel geactiveerd dus het 'bewijs' is mogelijk al verdwenen.

Hoogstwaarschijnlijk gaat het hier om een bad sector, als je dat nog kunt achterhalen omdat je SMART nu wellicht niet meer nuttig is. In elk geval, dit hoort bij 'slechte' RAID implementaties. Wil je iets beters kun je een ZFS NAS overwegen. Zo niet, zorg voor backups want dit type RAID is gewoon niet erg veilig. Je kunt toegang tot je data verliezen terwijl de schijven zelf prima zijn, op een paar onleesbare sectoren na. Daar is jouw RAID engine erg gevoelig voor; alle Windows-RAID (driverRAID,FakeRAID,onboardRAID) werken zo en veel hardware RAID eveneens. Helaas, maar dit soort implementaties zijn niet erg geschikt voor disks met hoge uBER, zoals bij moderne consumentenschijven, grofweg vanaf 1TB.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Hmm... En ik maar denken dat ik juist veiliger was...

Zal als de repair klaar is eens in linux duiken.
En sparen voor een NAS... Toch vreemd dat het jaren goed gaat...

Verwijderd

Het gaat goed totdat het fout gaat. ;)

Ipv Linux kun je ook een kant en klare NAS distributie kiezen. Dan ben je minder tijd kwijt met het configgen van je NAS, en kun je hem ongeveer zoals Synology gebruiken. Meer info daarover kun je beter in het ZFS topic stellen. Of je maakt je eigen topic als je serieus met een nieuwe NAS aan de slag wilt, dan kun je hardware en software in je eigen topic betrekken.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Hmm... Heb eigenlijk niet zo'n ervaring met Linux, maar ik zal eens een live-stickie knutselen.

Linux is wat mij betreft overigens geen optie, het is mijn gewone werkstation waar wat extra schijven in zitten. Dacht met Raid10 wat veiliger en sneller te zijn.
Sneller is gelukt, veiliger dus op dit moment wat minder.

RAIDXpert geeft overigens aan dat er geen bad sectors gelogd zijn. Heeft het nog zin om smartmontools te draaien?

Verwijderd

Waarschijnlijk is je SMART verloren gegaan door de 'herstel' (rewrite) van pariteit. Mocht je nou in het vervolg weer problemen krijgen, dan raad ik je aan direct eerst de SMART uit te lezen, liefst via Linux live stick zodat je ook echt de SMART kunt veiligstellen zonder dat de bad sectors (de vermoedelijke oorzaak) alweer zijn overschreven. Je komt er nu denk ik niet meer achter of dit ook voor deze huidige situatie van toepassing was.

Idee is dat je workstation gewoon Windows kan draaien en dat je een NAS gebruikt voor massaopslag, ongeveer zoals je Synology zou gebruiken, maar dan zelfbouw met ZFS erop. Dat kun je eventueel overwegen. Als je een ZFS platform pakt zoals FreeNAS/NAS4Free/ZFSguru is het ook helemaal niet zo moeilijk in te stellen via een web-interface. Maar het blijft netwerkopslag; geen lokale opslag wat je nu gebruikt.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Ok, heeft het nu uberhaupt nog zin om iets te testen dan?
Bad-sector check oid?

Ben overigens na een dag stuntelen (bleek een bios setting niet goed te staan) eindelijk in Ubuntu.
Heb daar Disks opgestart, maar daar staat "Smart is not enabled".
Dus vraag me af of dat iets op gaat leveren.

Verwijderd

Doe maar eens in een terminal:

sudo apt-get install smartmontools
smartctl -A -s on /dev/sda

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Ik zie iets :)
Hoe kopieer ik die info hierheen vanuit de terminal?

Zie op een schijf een read failure, met de short test...

[ Voor 30% gewijzigd door MikeyMan op 14-12-2013 18:24 ]


  • keur0000
  • Registratie: September 2002
  • Laatst online: 29-09-2024

keur0000

-------- N O N E --------

Heb dit ook meegemaakt met een AMD onboard raid controller en samsung F1 disks in RAID10. Regelmatig klapte er 1 uit. Uiteindelijk op hitachi overgestapt en daar nog nooit problemen mee gehad (nu 2 jaar) Zal waarschijnlijk aan de disks liggen is mijn vermoeden want de SMART status van de oude disks is goed. Zitten nu als extra opslagruimte in diverse pc's en draaien nog steeds prima mee zonder problemen.

Bron: SR. Engineer met +40 jaar ontwerp/werkervaring in het bouwen van o.a. datacenters ;)


Verwijderd

Voordat je tests doet eerst alle SMART verzamelen is mijn advies.

Je kunt gewoon firefox starten en daar inloggen en zo copy pasten

In Linux-achtigen kun je gewoon met de muis tekst selecteren en weer pasten met de middelste muisknop (de wiel-knop).

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Ben best een noob op Linux gebied... Heb een terminal gestart met ctrl-alt-f1 (herinnerde me nog iets uit debian tijdperk :) ) , en daar wat tests gestart...
Maar die krijg ik niet geselecteerd met de muis vrees ik.

Zit nu overigens al op firefox, dus dat gedeelte is al geregeld ;)

Verwijderd

linksboven heb je de 'startknop' in Ubuntu. Daar klik je op en type je 'terminal'. Dan klik je op het icoontje wat verschijnt. Daarin kun je tekst selecteren, je blijft in de grafische omgeving.

Druk op Ctrl+Alt+F7 ofzoiets om weer naar grafische desktop te gaan.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Disk A:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
smartctl 6.2 2013-04-20 r3812 [i686-linux-3.11.0-12-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD103UJ
Serial Number:    S13PJDWS509371
LU WWN Device Id: 5 0024e9 00175fba8
Firmware Version: 1AA01118
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7, ATA8-ACS T13/1699-D revision 3b
Local Time is:    Sat Dec 14 17:45:05 2013 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 247) Self-test routine in progress...
                    70% of test remaining.
Total time to complete Offline 
data collection:        (11405) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 191) minutes.
Conveyance self-test routine
recommended polling time:    (  20) minutes.
SCT capabilities:          (0x003f) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   067   067   011    Pre-fail  Always       -       10700
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1518
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10474
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16402
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1502
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       2
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   060   050   000    Old_age   Always       -       40 (Min/Max 12/47)
194 Temperature_Celsius     0x0022   055   047   000    Old_age   Always       -       45 (Min/Max 12/48)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       223670294
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       2
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 70%     16402         -
# 2  Short offline       Completed without error       00%     16401         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Disk B:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
smartctl 6.2 2013-04-20 r3812 [i686-linux-3.11.0-12-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD103UJ
Serial Number:    S13PJDWS509393
LU WWN Device Id: 5 0024e9 00175fc51
Firmware Version: 1AA01118
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7, ATA8-ACS T13/1699-D revision 3b
Local Time is:    Sat Dec 14 17:45:59 2013 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 247) Self-test routine in progress...
                    70% of test remaining.
Total time to complete Offline 
data collection:        (11452) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 192) minutes.
Conveyance self-test routine
recommended polling time:    (  21) minutes.
SCT capabilities:          (0x003f) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   068   068   011    Pre-fail  Always       -       10470
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1528
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10233
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16424
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       1
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       11
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1514
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       7
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   065   059   000    Old_age   Always       -       35 (Min/Max 12/36)
194 Temperature_Celsius     0x0022   062   057   000    Old_age   Always       -       38 (Min/Max 12/38)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       160658826
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       3
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 70%     16424         -
# 2  Short offline       Completed without error       00%     16423         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Disk C:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
smartctl 6.2 2013-04-20 r3812 [i686-linux-3.11.0-12-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD103UJ
Serial Number:    S13PJDWS509393
LU WWN Device Id: 5 0024e9 00175fc51
Firmware Version: 1AA01118
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7, ATA8-ACS T13/1699-D revision 3b
Local Time is:    Sat Dec 14 17:45:59 2013 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 247) Self-test routine in progress...
                    70% of test remaining.
Total time to complete Offline 
data collection:        (11452) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 192) minutes.
Conveyance self-test routine
recommended polling time:    (  21) minutes.
SCT capabilities:          (0x003f) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   068   068   011    Pre-fail  Always       -       10470
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1528
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10233
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16424
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       1
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       11
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1514
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       7
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   065   059   000    Old_age   Always       -       35 (Min/Max 12/36)
194 Temperature_Celsius     0x0022   062   057   000    Old_age   Always       -       38 (Min/Max 12/38)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       160658826
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       3
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 70%     16424         -
# 2  Short offline       Completed without error       00%     16423         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


en de verdachte disk D:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
smartctl 6.2 2013-04-20 r3812 [i686-linux-3.11.0-12-generic] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SAMSUNG SpinPoint F1 DT
Device Model:     SAMSUNG HD103UJ
Serial Number:    S13PJ90S322570
LU WWN Device Id: 5 0024e9 2006617c8
Firmware Version: 1AA01113
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7, ATA8-ACS T13/1699-D revision 3b
Local Time is:    Sat Dec 14 18:01:29 2013 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 121) The previous self-test completed having
                    the read element of the test failed.
Total time to complete Offline 
data collection:        (11619) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 194) minutes.
Conveyance self-test routine
recommended polling time:    (  21) minutes.
SCT capabilities:          (0x003f) SCT Status supported.
                    SCT Error Recovery Control supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   099   051    Pre-fail  Always       -       2
  3 Spin_Up_Time            0x0007   068   068   011    Pre-fail  Always       -       10510
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1582
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10393
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16875
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       1547
 13 Read_Soft_Error_Rate    0x000e   100   099   000    Old_age   Always       -       2
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       4
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       10
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   062   054   000    Old_age   Always       -       38 (Min/Max 14/39)
194 Temperature_Celsius     0x0022   061   052   000    Old_age   Always       -       39 (Min/Max 14/41)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       39865711
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       9
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       13
200 Multi_Zone_Error_Rate   0x000a   100   099   000    Old_age   Always       -       5
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     16874         501168475
# 2  Short offline       Completed: read failure       20%     16874         501168475

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

[ Voor 100% gewijzigd door MikeyMan op 14-12-2013 19:14 ]


Verwijderd

De laatste twee disks zijn een kopie van de voorgaande; serienummer is gelijk.

Probeer ook niet de -a flag te gebruiken maar -A zoals in mijn voorbeeld; hoofdletter dus.

smartctl -A -s on /dev/sda
smartctl -A -s on /dev/sdb
smartctl -A -s on /dev/sdc
smartctl -A -s on /dev/sdd

zoiets.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Nog eens geprobeerd, had inderdaad een kleine a staan.
(Heb de vorige, uitgebreide post ook ge-update trouwens).

Disk A:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   067   067   011    Pre-fail  Always       -       10700
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1518
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10474
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16402
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1502
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       2
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   059   050   000    Old_age   Always       -       41 (Min/Max 12/47)
194 Temperature_Celsius     0x0022   055   047   000    Old_age   Always       -       45 (Min/Max 12/48)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       223670294
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       2
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0


Disk B:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   068   068   011    Pre-fail  Always       -       10470
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1528
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10233
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16424
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       1
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       11
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1514
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       7
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   065   059   000    Old_age   Always       -       35 (Min/Max 12/36)
194 Temperature_Celsius     0x0022   062   057   000    Old_age   Always       -       38 (Min/Max 12/38)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       160658826
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       3
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0


Disk C:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   070   070   011    Pre-fail  Always       -       9730
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1516
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10553
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16411
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   000    Old_age   Always       -       1503
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       1
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   065   053   000    Old_age   Always       -       35 (Min/Max 16/43)
194 Temperature_Celsius     0x0022   063   051   000    Old_age   Always       -       37 (Min/Max 16/44)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       63439734
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   099   000    Old_age   Always       -       1
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0


Disk D:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   099   051    Pre-fail  Always       -       2
  3 Spin_Up_Time            0x0007   068   068   011    Pre-fail  Always       -       10510
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1582
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10393
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16875
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       1547
 13 Read_Soft_Error_Rate    0x000e   100   099   000    Old_age   Always       -       2
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       4
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       10
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   062   054   000    Old_age   Always       -       38 (Min/Max 14/39)
194 Temperature_Celsius     0x0022   061   052   000    Old_age   Always       -       39 (Min/Max 14/41)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       39865711
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       9
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       13
200 Multi_Zone_Error_Rate   0x000a   100   099   000    Old_age   Always       -       5
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0


Zie nogal vaak "Old_age" staan... Zijn ze allemaal op hun eindje?

Verwijderd

Oke dit bevestigt mijn vermoeden. Je hebt door 'actief' ingrepen (tests, rebuild) de bad sector op disk D overschreven. Het bewijs daarvan is - in principe - weg: Current Pending Sector is 0 dus geen actieve bad sectors op de disk. Maar Offline_Uncorrectable verraadt dat je minimaal één bad sector hebt gehad op die disk.

Aangezien Reallocated Sector Count 0 is, betekent dat het geen bad sector met fysieke schade betreft, maar een onleesbare sector door onvoldoende errorcorrectie. Dat is volstrekt normaal en geven de fabrikanten ook op in de specificaties onder de noemer uBER. Bij consumentendisks is dit normaliter 10^-14 terwijl bij enterprise disks het 10^-16 kan zijn. Dat betekent kortweg dat dergelijke disks een factor 100x minder van dit type bad sectors genereren dan normale consumentenschijven.

Dat verhaal van het ligt aan Samsung want Hitachi doet het bij mij prima is natuurlijk onzin. Ook Hitachi krijgt 10^-14 mee als spec, en er zullen heus afwijkingen zijn al helemaal bij zo'n gering aantal disks; daar kun je natuurlijk nooit statistisch relevante informatie uit destilleren. Alle consumentendisks hebben dit; en disks in 2000 hadden hier nauwelijks last van (zeg 5% van alle bad sectors van dit type) - vandaar de dag hebben schijven hier wel last van (zeg 95% van alle bad sectors). Kortom, moderne schijven hebben met dit probleem steeds meer te maken dan in het verleden.

Dat is ook de reden dat eigenlijk alle opslagtechnieken zoals nu gebruikt niet veilig zijn voor dit type consumentendisks. Microsoft werkt aan ReFS, Linux werkt aan Btrfs maar het meest uitontwikkeld, stabiel en wijdverbreid is ZFS, simpelweg dé manier om je data op te slaan in dit tijdperk. Alle drie genoemde filesystems hebben bescherming tegen bitrot, oftewel onleesbare sectoren danwel corruptie. Dat is nu eenmaal een beveiliging die huidige generatie schijven niet meer kunnen missen.

Ga je niet voor een ZFS volume of equivalent, dan is je opslag met consumentenschijven niet erg betrouwbaar en worden je backups veel belangrijker omdat de kans heel groot is dat je die ook echt nodig gaat hebben.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Ok, helder verhaal.
Vraag is; moet ik me nu nog zorgen gaan maken?

Disk D heeft, als ik de resultaten vergelijk, toch flink hogere waardes dan de andere disks. Is deze aan zijn eindje?

Wat me zorgen baart:
code:
1
2
3
4
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     16874         501168475
# 2  Short offline       Completed: read failure       20%     16874         501168475

[ Voor 49% gewijzigd door MikeyMan op 14-12-2013 19:21 ]


Verwijderd

Doe eens in je terminal:
(vervang /dev/sdd door de naam van disk D, maar ik denk dat je ook sdd bedoelt?!)

# check of er een onleesbare sector is op een bepaald LBA-nummer
sudo dd if=/dev/sdd of=/dev/null bs=512 count=2 skip=501168474

# mocht je een read error krijgen, dan kun je met dit commando de bad sector overschrijven
# let op: dit is een gevaarlijk commando; maak geen fouten bij het overtypen, copy paste recommended
sudo dd if=/dev/zero of=/dev/sdd bs=512 count=1 seek=501168474

Daarna een lange read test doen:
sudo dd if=/dev/sdd of=/dev/null bs=1M

Dat laatste duurt enkele uren.

[ Voor 8% gewijzigd door Verwijderd op 14-12-2013 19:29 ]


  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Kreeg geen read error, maar:
code:
1
2
3
2+0 records in
2+0 records out
1024 bytes (1.0 kB) copied, 0.503737 s, 2.0 kB/s


read test loopt... Ben benieuwd :)

Nog steeds read failure:
code:
1
2
3
4
5
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       20%     16876         501168475
# 2  Extended offline    Completed: read failure       90%     16874         501168475
# 3  Short offline       Completed: read failure       20%     16874         501168475

[ Voor 105% gewijzigd door MikeyMan op 14-12-2013 19:41 ]


Verwijderd

Dan zou ik de lange read test doen, het laatste commando in mijn vorige post. Die self tests gebruik ik nooit; beter alles via de host doen dan weet je zeker dat er geen gekkigheid tussen zit.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
check; kun je daar tussentijds nog de status van ophalen?
Overigens jij schijft 501168474 ipv 501168475. Is dat bewust?

Verwijderd

Bij Linux niet helaas, bij BSD kun je control-T doen en dan krijg je status. Bij Linux werkt dat niet. Achja.

En die LBA getallen ligt er aan of je bij 0 of 1 gaat tellen. Ik heb het in het voorbeeld veilig gedaan door 2 sectoren in te lezen ipv 1. Dan hoor je de betreffende sector gelezen te hebben en dat lijkt ook te werken gezien jouw output (2 records in).

Kortom je disk lijkt foutvrij en dat hij op sterven ligt is onzin; dat is mechanisch falen dit gaat om bitcorrectie op het platter medium. Die twee hebben niets met elkaar te maken. Mechanisch falen herken je door rare geluiden, langere spinup-tijd, hoge seek error rate, en dat soort zaken.

  • beascob
  • Registratie: Juli 2004
  • Laatst online: 11:23
Verwijderd schreef op zaterdag 14 december 2013 @ 19:13:
...Alle consumentendisks hebben dit; en disks in 2000 hadden hier nauwelijks last van (zeg 5% van alle bad sectors van dit type) - vandaar de dag hebben schijven hier wel last van (zeg 95% van alle bad sectors). Kortom, moderne schijven hebben met dit probleem steeds meer te maken dan in het verleden.
...
Heldere uitleg!
Tot 2010 2 jaar op een M3A78 MB , AMDRAIDXpert met 2 schijven gehad, (jbod). maar ook dit soort fouten.
Een nieuwe install op een SSD, en nu geen problemen meer op de 2 betreffende HDDs. Voor mij geen vormen van RAID meer, de SSD is snel genoeg.

[ Voor 0% gewijzigd door beascob op 14-12-2013 20:07 . Reden: typo ]

gewaarwordingshorizon


  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Das ook mijn uiteindelijke doelstelling; NAS van >6 tb, en een SSD in m'n desktop..
Maar de ballotagecommissie werkt niet echt mee :)

Verwijderd

Uitstekende reden om je NAS op ZFS te baseren. :Y)

  • rikadoo
  • Registratie: Oktober 2007
  • Niet online
De UDMA_CRC_Error_Count hebben ook een raw waarde van 3 3 en 1 van 13 betekend dit niet dat hij ook foute kabels heeft? Of een brakke controller?

AMD Ryzen 7 5900x | Custom WC | ASUS ROG Strix X570-E Gaming | 32GB Corsair DDR4-3600MHz | Samsung 970 nvme 1TB | Samsung 860 EVO 2TB | AMD RX 6900XT 16GB | 1x Asus RoG XG27AQDMG | 1x LG UltraGear 27GL850


  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
I dunno, is it?

Hoe weten we dat zeker?

Verwijderd

Dat klopt, maar dat is een vrij gering aantal. Pas bij hogere getallen zou ik me zorgen maken. Maar check vooral dat het niet verder stijgt. In principe kan het geen kwaad; de I/O wordt gewoon overnieuw gedaan. Als het sporadisch voorkomt kost het je een heel klein beetje performance, meer niet. Maar in principe hoor je foutloos te communiceren met je disk.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Nou, gelukkig is schijf vier er vannacht weer uit gevlogen.
Had een media patrol aangezet, en vanmorgen stond mijn pc uit.
Foute boel, leek me. En inderdaad, weer een error, en schijf 4 stond als JBOD.

Vanavond eerst maar eens het kabeltje vervangen, en dan weer met Linux aan de slag... :X

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Nu, met disk in JBOD ziet /dev/sdd er zo uit:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   099   051    Pre-fail  Always       -       7
  3 Spin_Up_Time            0x0007   065   065   011    Pre-fail  Always       -       11200
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       1586
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   100   100   015    Pre-fail  Offline      -       10572
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       16908
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       1551
 13 Read_Soft_Error_Rate    0x000e   100   099   000    Old_age   Always       -       7
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       4
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       15
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   078   054   000    Old_age   Always       -       22 (Min/Max 15/22)
194 Temperature_Celsius     0x0022   072   052   000    Old_age   Always       -       28 (Min/Max 15/28)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       371
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       9
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       13
200 Multi_Zone_Error_Rate   0x000a   100   099   000    Old_age   Always       -       17
201 Soft_Read_Error_Rate    0x000a   253   253   000    Old_age   Always       -       0


Raw_Read_Error_Rate en Multi_Zone_Error_Rate zijn hoger.
UDMA error count is gelijk gebleven, maar heb intussen voor de zekerheid de kabel vervangen.

Zie overigens ook dat /sdd als enige firmware versie 1AA01113 heeft, rest zit op 1AA01118

[ Voor 3% gewijzigd door MikeyMan op 17-12-2013 18:50 ]


Verwijderd

RRER is kortweg hoe snel er bad sectors zonder fysieke schade worden aangemaakt (eigenlijk fout; het gaat correctable errors; kortom hoe vaak heb je errorcorrectie nodig om de data corruptie-vrij uit te lezen. De mate waarin dit nodig is, kan als indicatie dienen van hoe goed je platter-medium is en dat heeft relatie met bad sectors. De raw value van RRER kun je meestal weinig mee als het binary encoded is. Je kunt wel wat met de genormaliseerde waarden (100 bij jou) en Worst (99 bij jou).

Had je met dd (of HDTune) al een volledige disk scan gedaan? Als dat foutvrij is weet je dat er op dit moment geen bad sectors op je schijf bevinden. Verder zou je eventueel nog kabels vervangen kunnen proberen. UDMA CRC Error Count wordt alleen bij corruptie getriggered. Als de kabel (op momenten) zo slecht is dat er geen 'link' gezien wordt, dan zal dit niet te zien zijn aan de UDMA_CRC_Error_Count.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Dus als ik het goed begrijp kan ik nog niet zo gek veel met deze resultaten?
Hoe zou het dan kunnen dat e.e.a. nog steeds zo fragiel is ineens, na jaren van probleemloos werken?

Zie overigens nog steeds op sdd dezelfde 'LBA of first error' :?

zal met dd nog een full test doen, maar wellicht moet eerste die LBA error eruit?
Offline uncorrectable is 1 voor deze ene schijf, voor de rest 0.

[ Voor 23% gewijzigd door MikeyMan op 17-12-2013 19:30 ]


  • Wim-Bart
  • Registratie: Mei 2004
  • Laatst online: 10-01-2021

Wim-Bart

Zie signature voor een baan.

De AMD controller is nogal gevoelig voor kabels onder load. Heb zelf waargenomen dat soms een disk uit de array wordt gegooid op het moment dat er UDMA errors optraden. Vaak weet hij het te herstellen, wat je ook in de RAIDXpert logging kan zien als gelijkwaardige melding "Taak 30 time-out op schijf (poortnummer 1, doel-id 1) op LBA 0x0a3b4580 (lengte 0x8)". Dit los je op door gewoon betere SATA kabels te nemen. Wanneer jij echt een timeout krijgt die te lang is in zo een geval wordt de disk "Off-line" gezet, maar in mijn geval nooit al JBOD disk.

Beheerders, Consultants, Servicedesk medewerkers. We zoeken het allemaal. Stuur mij een PM voor meer info of kijk hier De mooiste ICT'er van Nederland.


Verwijderd

Geldt voor zover ik weet niet voor AMD specifiek maar voor alles: Silicon Image, Marvell, Intel, VIA, enzovoorts. Het gaat om alle timeouts, of dat nou door een kabelfout komt of een bad sector maakt de RAID engine niets uit. Een disk die x seconden niet reageert, wordt gezien als defect en wordt uit de array gegooid.

Een normale kabelfout kan dit probleem niet veroorzaken; maar als je kabel slecht is kan het zomaar voorkomen dat er keer op keer niet lukt. Dan krijg je dus wel problemen. Je kabels dienen dus wel echt goed te zijn; zeker bij een fragiele kwetsbare RAID laag zoals beschikbaar onder Windows.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Heb de kabel nu vervangen, maar de oude zag er nog prima uit. Niet verbogen e.d.

Zou het hiermee afgedaan zijn?

[ Voor 180% gewijzigd door MikeyMan op 17-12-2013 19:42 ]


  • Wim-Bart
  • Registratie: Mei 2004
  • Laatst online: 10-01-2021

Wim-Bart

Zie signature voor een baan.

Verwijderd schreef op dinsdag 17 december 2013 @ 19:38:
Geldt voor zover ik weet niet voor AMD specifiek maar voor alles: Silicon Image, Marvell, Intel, VIA, enzovoorts. Het gaat om alle timeouts, of dat nou door een kabelfout komt of een bad sector maakt de RAID engine niets uit. Een disk die x seconden niet reageert, wordt gezien als defect en wordt uit de array gegooid.

Een normale kabelfout kan dit probleem niet veroorzaken; maar als je kabel slecht is kan het zomaar voorkomen dat er keer op keer niet lukt. Dan krijg je dus wel problemen. Je kabels dienen dus wel echt goed te zijn; zeker bij een fragiele kwetsbare RAID laag zoals beschikbaar onder Windows.
Jammer, maar dit was op een Linux bakkie :-) met AMD hardware (ahum) raid.

Beheerders, Consultants, Servicedesk medewerkers. We zoeken het allemaal. Stuur mij een PM voor meer info of kijk hier De mooiste ICT'er van Nederland.


  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Zelfde idee dus... Ik draai ook de onboard AMD RAID Option ROM.
Geen windows RAID.

  • Wim-Bart
  • Registratie: Mei 2004
  • Laatst online: 10-01-2021

Wim-Bart

Zie signature voor een baan.

MikeyMan schreef op dinsdag 17 december 2013 @ 19:43:
Zelfde idee dus... Ik draai ook de onboard AMD RAID Option ROM.
Geen windows RAID.
Daarom gebruik ik ook geen AMD Hardware raid meer (behalve op die oude bak) en doe ik gewoon alles met LVM op Linux of Storage spaces on de Server 2012R2. ZFS is leuk maar te beperkt in beheersbaarheid en probeer maar eens een VM te booten vanaf ZFS op een Hyper-V bak welke zelf de VM met ZFS aan biedt als iSCSI.

Beheerders, Consultants, Servicedesk medewerkers. We zoeken het allemaal. Stuur mij een PM voor meer info of kijk hier De mooiste ICT'er van Nederland.


Verwijderd

MikeyMan schreef op dinsdag 17 december 2013 @ 19:43:
Zelfde idee dus... Ik draai ook de onboard AMD RAID Option ROM.
Geen windows RAID.
Dat is Windows-RAID. Windows-only RAID drivers. Onder elk ander OS is het een normale SATA controller en zie je b.v. 4 disks ipv 1 RAID volume. Onder Linux en BSD werkt het zo dat het formaat van AMD/Intel/Silicon Image/Marvell/enzovoorts herkend wordt en de eigen software RAID engine erop los wordt gelaten. Zo kan Linux toch je 'onboard RAID' herkennen als één volume, met enig verschil dat je de fysieke disks nog steeds ziet terwijl dat bij Windows niet zo werkt.

Onboard RAID, Driver RAID, Pseudo RAID en Fake RAID is allemaal hetzelfde.

Edit: en voor de duidelijkheid dus: onboard RAID is gewoon software RAID. Er is geen hardwarematige versnelling zoals bij een echte RAID controller zoals Areca. Niet dat dat nodig is; software RAID is in principe veruit superieur aan hardware RAID. Maar zodra je concreet X versus Y gaat vergelijken gaat het vrijwel uitsluitend om de kwaliteit van de implementatie. Veel (eigenlijk alle) RAID implementaties zijn van lage kwaliteit en kunnen veel beter worden uitgevoerd vanuit technisch perspectief. ZFS is eigenlijk wat RAID had moeten zijn; iets wat 'gewoon werkt' en doet wat mensen verwachten van RAID. Als er om de haverklap disks uit een array vallen, kun je je afvragen of de RAID laag je opslagvolume wel veiliger maakt.

[ Voor 33% gewijzigd door Verwijderd op 17-12-2013 20:29 ]


  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Hmm... Zover was ik er toentertijd niet in gedoken...

Maar; constateer nu het volgende:

Krijg nog steeds dit soort errors:
code:
1
2
3
# 2  Offline             Completed: read failure       70%     16909         501164971
# 3  Short offline       Completed: read failure       20%     16909         501168475
# 4  Short offline       Completed: read failure       20%     16909         501168475


Echter; als ik ze per sector uitlees, geeft ie geen fout:
code:
1
2
3
4
5
6
7
8
ubuntu@ubuntu:~$ sudo dd if=/dev/sdd of=/dev/null bs=512 count=2 skip=501164971
2+0 records in
2+0 records out
1024 bytes (1.0 kB) copied, 0.550459 s, 1.9 kB/s
ubuntu@ubuntu:~$ sudo dd if=/dev/sdd of=/dev/null bs=512 count=2 skip=501164970
2+0 records in
2+0 records out
1024 bytes (1.0 kB) copied, 0.000433712 s, 2.4 MB/s


Kan ik hier nog iets aan doen, of moeten we hiermee leren leven?

edit: waarom krijg ik bij de lange offline test overigens een ander sectornummer mee dan met de korte test?

[ Voor 42% gewijzigd door MikeyMan op 17-12-2013 22:37 ]


  • _JGC_
  • Registratie: Juli 2000
  • Nu online
Overigens is mijn ervaring dat Samsung disks niet altijd fatsoenlijk aan remapping doen. Heb hier al een aantal disks weggegooid met bad sectors: je kunt de sectoren niet lezen, je overschrijft ze (hele disk zero-writen met dd, dus geen rekenfout in welke sector), zouden remapped moeten zijn maar zijn dat niet, vervolgens weer lezen en weer onleesbaar.

  • MikeyMan
  • Registratie: Februari 2003
  • Nu online

MikeyMan

Vidi, Vici, Veni

Topicstarter
Tsjah, daar lijkt het inderdaad op...
Vanmorgen nog een HDTune schijftest laten doen, en die was volledig groen.

Tegelijk ook een DS414 nas gekocht met 2x4tb.
Even inventariseren of ik het ga halen met een 256GB ssd, en dan lekker overstappen.
Pagina: 1