Hoi allen.
Ik heb al enige jaren een RAID 5 config draaien onder linux. Hier is af en toe wat in fout gegaan (dode schijf, tot zelfs 2 dode schijven enz)
Nu was het gisteren weer eens zo ver (gebeurd gemiddeld eens per jaar denk ik). Een schijf viel uit m'n array. Geen probleem, de twee anderen bollen vrolijk door, dus m'n data ben ik nu aan't backuppen.
Telkens als ik een probleem heb met een schijf uit m'n array, laat ik er smartctl op los
Dit geeft me dan de SMART status van die bepaalde harde schijf, en telkens was daar minimaal 1 fout te bespeuren zoiets als:
gevolg: RAID array werkt niet meer!
Ik ging steeds met dit error report naar de winkel, en kreeg een nieuwe schijf.
Omdat het nu weer eens gebeurde, besloot ik om de schijf waar de installatie opstaat eens te controlleren, en wat zie ik:
heel veel errors dus!!!
maar deze disk draait vrolijk door, m'n server draait goed, geen problemen en nergens last van.
Is deze disk nu ook op sterven na dood, of zijn deze SMART eroors 'normaal' en 'kunnen ze geen kwaad'? Indien dat zo is, waarom bijt m'n RAID5 er zich dan steeds weer z'n tanden op stuk?
Ik heb al enige jaren een RAID 5 config draaien onder linux. Hier is af en toe wat in fout gegaan (dode schijf, tot zelfs 2 dode schijven enz)
Nu was het gisteren weer eens zo ver (gebeurd gemiddeld eens per jaar denk ik). Een schijf viel uit m'n array. Geen probleem, de twee anderen bollen vrolijk door, dus m'n data ben ik nu aan't backuppen.
Telkens als ik een probleem heb met een schijf uit m'n array, laat ik er smartctl op los
code:
1
| smartctl -a /dev/hda |
Dit geeft me dan de SMART status van die bepaalde harde schijf, en telkens was daar minimaal 1 fout te bespeuren zoiets als:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
| Error 1 occurred at disk power-on lifetime: 7430 hours (309 days + 14 hours) When the command that caused the error occurred, the device was in an unknown state. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 00 50 30 87 60 1f e0 48 sectors at LBA = 0x001f6087 = 2056327 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- 25 00 30 87 60 1f e0 00 33d+13:33:58.490 READ DMA EXT 25 00 38 7f 60 1f e0 00 33d+13:33:58.427 READ DMA EXT 35 00 80 ff 5f 1f e0 00 33d+13:33:58.421 WRITE DMA EXT 35 00 80 7f 5f 1f e0 00 33d+13:33:58.415 WRITE DMA EXT 35 00 80 ff 5e 1f e0 00 33d+13:33:58.408 WRITE DMA EXT |
gevolg: RAID array werkt niet meer!
Ik ging steeds met dit error report naar de winkel, en kreeg een nieuwe schijf.
Omdat het nu weer eens gebeurde, besloot ik om de schijf waar de installatie opstaat eens te controlleren, en wat zie ik:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
| ATA Error Count: 8 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 8 occurred at disk power-on lifetime: 319 hours (13 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 ff ff ff ef Error: IDNF at LBA = 0x0fffffff = 268435455
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ca 00 80 df 8e d7 e0 00 00:01:43.000 WRITE DMA
ca 00 80 5f 8e d7 e0 00 00:01:43.000 WRITE DMA
c8 00 60 47 7c bd e0 00 00:01:43.000 READ DMA
c8 00 08 8f 9c b9 e0 00 00:01:43.000 READ DMA
c8 00 08 87 6b b5 e0 00 00:01:42.950 READ DMA
Error 7 occurred at disk power-on lifetime: 318 hours (13 days + 6 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 ff ff ff ef Error: IDNF at LBA = 0x0fffffff = 268435455
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ca 00 08 57 c6 b6 e0 00 00:01:38.500 WRITE DMA
ca 00 08 c7 50 b3 e0 00 00:01:38.500 WRITE DMA
c8 00 08 8f 01 ac e0 00 00:01:38.500 READ DMA
ca 00 08 e7 27 9b e0 00 00:01:38.500 WRITE DMA
c8 00 08 77 82 33 e0 00 00:01:38.500 READ DMA
Error 6 occurred at disk power-on lifetime: 315 hours (13 days + 3 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 ff ff ff ef Error: IDNF at LBA = 0x0fffffff = 268435455
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ca 00 01 17 45 d7 e0 00 00:02:01.200 WRITE DMA
c8 00 40 39 4f c6 e0 00 00:02:01.200 READ DMA
c8 00 08 7f 2a b9 e0 00 00:02:01.200 READ DMA
c8 00 08 b7 8f b6 e0 00 00:02:01.200 READ DMA
c8 00 40 59 4a ae e0 00 00:02:01.200 READ DMA
Error 5 occurred at disk power-on lifetime: 310 hours (12 days + 22 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 ff ff ff ef Error: IDNF at LBA = 0x0fffffff = 268435455
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ca 00 08 47 e2 ba e0 00 00:01:52.350 WRITE DMA
c8 00 08 ef c4 b4 e0 00 00:01:52.350 READ DMA
c8 00 08 3f 89 b4 e0 00 00:01:52.350 READ DMA
c8 00 08 9f 10 af e0 00 00:01:52.300 READ DMA
c8 00 08 77 54 ae e0 00 00:01:52.300 READ DMA
Error 4 occurred at disk power-on lifetime: 155 hours (6 days + 11 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
10 51 01 ff ff ff ef Error: IDNF at LBA = 0x0fffffff = 268435455
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ca 00 08 a7 e0 c3 e0 00 00:01:45.100 WRITE DMA
c8 00 08 9f 20 b4 e0 00 00:01:45.100 READ DMA
c8 00 08 3f a4 b1 e0 00 00:01:45.100 READ DMA
c8 00 08 9f 03 ac e0 00 00:01:45.100 READ DMA
ca 00 10 d7 98 a3 e0 00 00:01:45.100 WRITE DMA |
heel veel errors dus!!!
maar deze disk draait vrolijk door, m'n server draait goed, geen problemen en nergens last van.
Is deze disk nu ook op sterven na dood, of zijn deze SMART eroors 'normaal' en 'kunnen ze geen kwaad'? Indien dat zo is, waarom bijt m'n RAID5 er zich dan steeds weer z'n tanden op stuk?