NAS is na een aantal uur 2 schijven kwijt in MDADM

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Probleem
Ik heb een zelfbouw-NAS met meerdere RAID arrays gemaakt met MDADM onder Gentoo Linux AMD64, deze draait al een jaar of 3 als een zonnetje en is de centrale opslag in mijn netwerk.

Sinds ik vorige week 3 extra schijven geplaatst heb start mijn NAS goed op, draait een paar uur, en dan begint ineens het alarm van mijn raidcontroller te piepen en is MDADM van de raid array van de 3 nieuwe schijven er ineens 2 kwijt. Als ik de nieuwe schijven loskoppel draait mijn NAS weer als een zonnetje.

Omdat mijn raidcontroller zelf alle disken los ziet en vervolgens dus alarm slaat, weet ik dus dat het iets hardwarematigs moet zijn. Als MDADM problemen heeft maar mijn raidcontroller ziet de disken nog netjes, zou er immers geen alarm afgaan.
De reden dat de raidcontroller alle disken los ziet is omdat ik dit forceer door expres eerst schijven te formatten voor ze aan de controller te hangen, want ik wil Linux Raid / Mdadm gebruiken. De raidcontroller noemt ze dan Legacy Disks, en laat ze met rust. De reden hiervoor is dat ik vrij naar elk merk raidcontroller kan overstappen en features zoals SMART etc. allemaal blijven werken want de disken zijn direct vanuit Linux benaderbaar.

Wat heb ik al gedaan
• SATA-kabels vervangen
• Molex-kabels anders ingedeeld, waardoor in theorie meerdere 12V-lijnen van mijn voeding gebruikt moeten worden

Ikzelf denk dus dat het iets te maken moet hebben met de voeding, deze heeft 3 12V-rails, maar ik heb nu juist de 2 problematische schijven op een losse rail hangen en nog vallen deze uit.

Wie weet hoe dit komt en wat ik er aan kan doen?
Meer info
Hardware:
Ik heb 3 of 4 jaar geleden deze NAS gebouwd:
#ProductPrijsSubtotaal
4Samsung SpinPoint T166 HD501LJ, 500GB€ 0,-€ 0,-
1Cooler Master Centurion 590€ 0,-€ 0,-
1Asus M2A-VM€ 0,-€ 0,-
1AMD Athlon X2 BE-2350€ 0,-€ 0,-
3Cooler Master 4-in-3 Device Module€ 17,50€ 52,50
1Antec Neo HE 430€ 0,-€ 0,-

Maar ik verzamdelde meer dan ik wilde weggooien, dus ongeveer 2 jaar terug heb ik daar dit aan toegevoegd:

#ProductPrijsSubtotaal
1Highpoint RocketRAID 2320€ 0,-€ 0,-
3Samsung EcoGreen F2 EG HD154UI, 1.5TB€ 98,80€ 296,40

En omdat er onlangs achter kwam dat één 1500GB Samsung niet meer door de SMART selftest kom, maar ik wel voor mij belangrijke data opsla op deze schijven, en ik nogmaals wil uitbreiden (meer = beter), heb ik afgelopen week onderstaande schijven gekocht. De bedoeling is de huidige RAID-array uit te breiden naar 5x1.5TB, en de slechte disk er uit te halen / met garantie terug te sturen.

#ProductPrijsSubtotaal
3Western Digital Caviar Green WD15EARX, 1.5TB SATA-600, 64MB, 5400rpm€ 92,80€ 278,40


De vier 500GB-schijven zijn aangesloten op het moederbord, de zes 1.5TB-schijven zijn aangesloten op de Highpoint RocketRaid.

Qua stroom heb ik op de modulaire voeding het volgende aangesloten (van links naar rechts op de voeding):
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
- Mobo-stekker naar mobo, uiteraard.
- Stekker met 2x SATA  -- Samsung 500GB-disk
                       \- Samsung 500GB-disk
- Stekker met 2x SATA  -- Samsung 500GB-disk
                       \- Samsung 500GB-disk
- Stekker met 4x MOLEX -- Verloopje van 1xMolex->2xSata -- Samsung 1500GB-disk
                                                        \- Samsung 1500GB-disk
                       \- Verloopje van 1xMolex->2xSata -- Samsung 1500GB-disk
                                                        \- WD 1500GB-disk
- Stekker met 4x MOLEX -- Verloopje van 1xMolex->2xSata -- WD 1500GB-disk
                                                        \- WD 1500GB-disk
                       \- Verloopje 1xMolex->3xfan -- 3x fancontroller + 120mm fan

- (Leeg)
Software:
1. 4x500GB -> Paar partities voor OS en swap (20GB totaal ofzo) en de rest samen in Raid5 + LVM
2. 3x1500GB > Één grote partititie in raid5+ LVM (Hier faalt dus een schijf van)
3. 3x1500GB > De nieuwe schijven, deze hebben één grote partititie in raid5 + LVM

1 en 2 heb ik samengetrokken met LVM tot één grote Volume Group, iets dat in de tijd een goed idee leek maar dat niet echt bleek te zijn. Het plan is dan ook om dit recht te trekken en weer een losse VG per Raid array te maken, iets dat ik nu kan doen nu ik de nieuwe schijven heb. Staks heb ik dus weer een losse VG die draait op de 4x500GB array en een losse VG die draait op de 5x1500GB array.

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

  • hans_lenze
  • Registratie: Juli 2003
  • Laatst online: 27-08 20:53
Ik zou eens wat zoeken naar spin up tijden van de schijf en de maximale wachttijd van de controller voor hij een schijf als gefaald ziet.

Er zijn een hoop eco schijven die net te langzaam opstarten waardoor ze met een deftige RAID controller uit de RAIDset vallen.

while (! ( succeed = try ()));


Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Oei, thanks! Vanavond de spindown maar eens uitzetten.
Ik heb in het verleden express op alle disken de spindown uitgezet, maar op de 3 nieuwe nog niet... kan best zijn dat dat het is ja!

/edit

Dat kan het niet zijn bedenk ik me nu, want de raid array was aangemaakt zonder --assume-clean waardoor deze volop aan het syncen was... de disken waren dus niet spinned down.

[ Voor 33% gewijzigd door _eXistenZ_ op 07-05-2012 16:37 ]

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

  • jan99999
  • Registratie: Augustus 2005
  • Laatst online: 06-09 20:46
Bij wd de head parking groter of uit zetten. WD heeft hier een programma voor, ik kreeg hem niet uitgezet maar wel groot gezet. In smart ging de head parking heel snel omhoog.

Uitzoeken of er meerdere merken problemen hebben met je raid kontroller, of het uitvallen van groene of niet raid harde schijven, kunt voorkomen, door hoe jij er mee omgaat weet ik niet.
Bij wd kon je vroeger de schijf aanpassen aan een raid kontroller, dit hebben ze geblokkeert zodat niet meer gaat, dus dat je raid hd's gaat kopen zouden ze willen.

Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Kan het ook zo zijn dat het de TLER is? http://forums.storagerevi...hp/topic/28333-tler-cctl/ Die staat op de laatste WD-schijven schijnbaar erg hoog (90 seconden) waardoor je genoodzaakt bent dure RAID-schijven te kopen...

Ik kan namelijk nergens vinden of mijn raidcontroller problemen met (het ontbreken van) TLER-support heeft, de disken hangen iig in legacy mode aan de controller, en de raid-afhandeling is in mdadm, die geen problemen heeft met het ontbreken van TLER-support...

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

Verwijderd

Post de SMART van al je hardeschijven vóórdat je andere dingen doet; of je zult nooit de oorzaak weten. Eerst het bewijs veilig stellen. Gebruik:

smartctl -A /dev/sda

De hoofdletter -A zorgt ervoor dat je alleen de benodigde SMART attributen te zien krijgt. Doe dit voor al je schijven en post het resultaat hier exact zoals je het gekregen hebt, liefst in een [ code ] tag.

Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Bij deze alvast de huidige schijven die aangesloten zijn, vanavond de 3 problematische:

/dev/sda > 500GB Samsung, gekocht bij bouwen nas
/dev/sdb > 500GB Samsung, gekocht bij bouwen nas
/dev/sdc > 500GB Samsung, gekocht bij bouwen nas
/dev/sdd > 500GB Samsung, gekocht bij bouwen nas
/dev/sde > 1500GB Samsung, gekocht na 2 jaar, faalt de selftest
/dev/sdf > 1500GB Samsung, gekocht na 2 jaar
/dev/sdg > 1500GB Samsung, gekocht na 2 jaar
/dev/sdh > 1500GB WD, afgelopen week gekocht (smartctl ontbreekt nog, komt vanaaf)
/dev/sdi > 1500GB WD, afgelopen week gekocht (smartctl ontbreekt nog, komt vanaaf)
/dev/sdj > 1500GB WD, afgelopen week gekocht (smartctl ontbreekt nog, komt vanaaf)

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# smartctl -A /dev/sda
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.2.1-gentoo-r2-mk2] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       12
  3 Spin_Up_Time            0x0007   100   100   015    Pre-fail  Always       -       7296
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       363
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       32122
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   253   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       17210643
187 Reported_Uncorrect      0x0032   253   253   000    Old_age   Always       -       786432
188 Command_Timeout         0x0032   253   253   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   076   062   000    Old_age   Always       -       24
194 Temperature_Celsius     0x0022   166   124   000    Old_age   Always       -       24
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       17210643
196 Reallocated_Event_Count 0x0032   253   253   000    Old_age   Always       -       0
197 Total_Pending_Sectors   0x0012   253   253   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
202 Data_Address_Mark_Errs  0x0032   253   253   000    Old_age   Always       -       0
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
# smartctl -A /dev/sdb
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.2.1-gentoo-r2-mk2] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       7
  3 Spin_Up_Time            0x0007   100   100   015    Pre-fail  Always       -       7296
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       370
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       32122
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   253   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       266
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       15581745
187 Reported_Uncorrect      0x0032   253   253   000    Old_age   Always       -       262144
188 Command_Timeout         0x0032   253   253   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   077   060   000    Old_age   Always       -       23
194 Temperature_Celsius     0x0022   166   115   000    Old_age   Always       -       24
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       15581745
196 Reallocated_Event_Count 0x0032   253   253   000    Old_age   Always       -       0
197 Total_Pending_Sectors   0x0012   253   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
202 Data_Address_Mark_Errs  0x0032   253   253   000    Old_age   Always       -       0
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
# smartctl -A /dev/sdc
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.2.1-gentoo-r2-mk2] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       7
  3 Spin_Up_Time            0x0007   100   100   015    Pre-fail  Always       -       7552
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       369
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       32123
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   253   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       36002757
187 Reported_Uncorrect      0x0032   253   253   000    Old_age   Always       -       4456448
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       2
190 Airflow_Temperature_Cel 0x0022   076   063   000    Old_age   Always       -       24
194 Temperature_Celsius     0x0022   166   124   000    Old_age   Always       -       24
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       36002757
196 Reallocated_Event_Count 0x0032   253   253   000    Old_age   Always       -       0
197 Total_Pending_Sectors   0x0012   253   099   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
202 Data_Address_Mark_Errs  0x0032   253   253   000    Old_age   Always       -       0
# smartctl -A /dev/sdd
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.2.1-gentoo-r2-mk2] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       4
  3 Spin_Up_Time            0x0007   100   100   015    Pre-fail  Always       -       7360
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       363
  5 Reallocated_Sector_Ct   0x0033   253   253   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       32123
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   253   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       16284379
187 Reported_Uncorrect      0x0032   253   253   000    Old_age   Always       -       1245184
188 Command_Timeout         0x0032   253   253   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   076   061   000    Old_age   Always       -       24
194 Temperature_Celsius     0x0022   166   118   000    Old_age   Always       -       24
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       16284379
196 Reallocated_Event_Count 0x0032   253   253   000    Old_age   Always       -       0
197 Total_Pending_Sectors   0x0012   253   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
202 Data_Address_Mark_Errs  0x0032   253   253   000    Old_age   Always       -       0
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# smartctl -A /dev/sde
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.2.1-gentoo-r2-mk2] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   099   051    Pre-fail  Always       -       166
  3 Spin_Up_Time            0x0007   071   071   011    Pre-fail  Always       -       9570
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       134
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   079   079   015    Pre-fail  Offline      -       22529
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       19983
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       56
 13 Read_Soft_Error_Rate    0x000e   100   099   000    Old_age   Always       -       166
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       238
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   081   070   000    Old_age   Always       -       19 (Min/Max 16/19)
194 Temperature_Celsius     0x0022   082   069   000    Old_age   Always       -       18 (Min/Max 16/21)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       19417353
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       5
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# smartctl -A /dev/sdf
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.2.1-gentoo-r2-mk2] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0007   071   071   011    Pre-fail  Always       -       9640
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       102
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   098   095   015    Pre-fail  Offline      -       15866
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       20040
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       56
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       0
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       1
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   082   071   000    Old_age   Always       -       18 (Min/Max 16/19)
194 Temperature_Celsius     0x0022   082   070   000    Old_age   Always       -       18 (Min/Max 16/21)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       15345288
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
# smartctl -A /dev/sdg
smartctl 5.42 2011-10-20 r3458 [x86_64-linux-3.2.1-gentoo-r2-mk2] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0007   071   071   011    Pre-fail  Always       -       9440
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       56
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   100   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   093   093   015    Pre-fail  Offline      -       17467
  9 Power_On_Hours          0x0032   096   096   000    Old_age   Always       -       20045
 10 Spin_Retry_Count        0x0033   100   100   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       56
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       1
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       5
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   083   072   000    Old_age   Always       -       17 (Min/Max 15/17)
194 Temperature_Celsius     0x0022   084   071   000    Old_age   Always       -       16 (Min/Max 15/19)
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       17596235
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   100   100   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   100   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       0

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

Verwijderd

/dev/sde heeft in elk geval 5 pending sectoren; dus onleesbare sectoren.
Als je de tijd hebt, kun je alvast dit commando laten draaien; zorg dat je de output GOED bewaart!

sudo dd if=/dev/sde of=/dev/null bs=512 conv=sync,noerror

Dit duurt meerdere uren en zal op bepaalde punten een I/O error geven; 5 keer als het goed is want je hebt 5 onleesbare sectoren. Zodra je exact de LBA weet van deze bad sectors, kun je ze gericht overschrijven met nullen en dan verdwijnen de onleesbare pending sectoren.

Je weet wat Current Pending Sector betekent? In wat andere posts op dit forum leg ik dit uitgebreid uit, als je interesse hebt.

In elk geval, dit is je probleem; onleesbare sectoren gaat 'md' niet zo goed mee om. Maar je kunt relatief eenvoudig hiervan recoveren. Simpelweg de bad sectors oplossen en daarna een rebuild doen van je RAID array. Dat zou alles moeten fixen. Maargoed, eerst je disks bad sector vrij maken dus!

Als je de output hebt van het dd commando hierboven (wat meerdere uren hoort te draaien!) dan kunnen we beginnen.

Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Thanks voor het helpen! Het is toch wel zo dat één schijf (sde) dood aan het gaan is? Of komt dit ook alleen maar door de pending sectoren dat de selftest faalt?

Een ander punt is dat ik vanwege de wet koop of afstand vandaag nog de WD-schijven kan terugsturen en mijn geld kan terugvragen, en via een andere webshop nog Samsungs kan regelen met ondersteuning voor TLER. Is dat aan te raden? Of denk je dat dat echt niet het probleem is? Doe maar een judgement call als je wilt, als de WD's alsnog niet gaan werken op m'n raidcontroller verkoop ik ze lekker op Marktplaats ofzo... als je het mis hebt zal ik je niet aan je judgement call houden :)

/edit

Ik heb je commando aangezet in een screen die ik vanavond wel terugvind, en als je nog wat leesvoer voor me hebt uit andere posts hoor ik het graag :)

[ Voor 16% gewijzigd door _eXistenZ_ op 08-05-2012 16:38 ]

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

Verwijderd

De schijf sde heeft bijna 20 duizend uren gedraaid, dus dan is het heel normaal dat je wat pending sectoren hebt; dat hoort er nu eenmaal bij aangezien de datadichtheid toeneemt maar de Bit-Error-Rate (uBER) gelijk blijft. Je krijgt dus steeds vaker met bad sectors te maken.

Dit is echter geen teken dat de schijf aan het doodgaan is, het plotsklap overlijden van een hardeschijf gebeurt meestal door mechanische problemen of problemen in het electronische gedeelte. Dat een paar sectoren onleesbaar zijn (5 sectoren ofwel 2.5 kilobyte) is dus geen reden om de schijf af te schrijven, naar mijn mening.

De sectoren overschrijven zorgt ervoor dat deze weer bruikbaar worden; belangrijk daarbij is om te kijken naar de Reallocated Sector Count (raw value). Als deze toeneemt nadat de pending sectoren overschreven zijn, dan gaat het om fysiek beschadigde sectoren. Neemt deze niet toe, dan blijven de 'bad sectors' in gebruik, omdat deze na overschrijven gewoon correct functioneren. In dit geval gaat het om sectoren die hun magnetische lading teveel hebben verloren en er onvoldoende bitcorrectie is om de data te recoveren. Dat komt nu eenmaal voor; live with it!

Hoe doe je dat, leven met bad sectors? De beste oplossing is ZFS, die repareert dit soort pending sectoren PER DIRECT door er naar te schrijven. Hiervoor moet ZFS wel kunnen weten welke data er in dit onleesbare sectoren hád moeten staan; dat doet het door van een mirror disk te lezen, of door middel van parity berekeningen bij gebruik van RAID-Z (de RAID5-familie). Gevolg is dat ZFS vrijwel immuun is voor bad sectors en deze direct corrigeert waardoor je er nooit(*) geen omkijken naar hebt.

Bij md-raid zul je voldoende redundancy moeten hebben; een disk met bad sectors zul je moeten zero-writen in zijn geheel of specifiek de bad sectors voordat je hem weer aan md kan geven en een rebuild kan starten. Het probleem hierbij is dat als één van de overige disks ook een onleesbare sector heeft, dit voor vervelende problemen kan zorgen waarbij dataverlies niet uitgesloten is, afhankelijk van de user-interactie.

Je moet je ook afvragen hoe belangrijk je data is, of je van de meest belangrijke data backups hebt en welke oplossing (WHS, commerciële NAS, Linux met md-raid, ZFS) voor jou het beste aansluit bij je wensen. Ik ben in elk geval een groot voorstander van ZFS. Al je daar meer over wilt weten, ben je van harte welkom in het grote ZFS topic op dit forum.

Ik zie je dd-command output vanavond wel, kun je vanavond gelijk je probleem oplossen. :)

Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Hmm ZFS klinkt goed maar is niet native onder Linux, ik denk dat ik dus ga skippen ter faveure van LVM + ext4, en als /dev/sde in voldoende staat is om nog verder te functioneren ga ik deze toevoegen aan de raid array en 6x1500GB raid6 draaien. Daarmee vang ik mooi het probleem af van meerdere disken die net effe een sector kwijt zijn waardoor ik in theorie data kwijt kan raken, althans ik beperk het daar natuurlijk stevig mee.

Sowieso wil ik de 500GB-schijven gaan uitfaseren uit de NAS als vaste RAID-array en inzetten voor andere doeleinden zoals backups van mijn belangrijkste onvervangbare data, dus 100% waterdicht hoeft mijn raid array niet te zijn, 99.999% mag ook :)

Hoe kijk je aan tegen het dillema om vanavond nog de WD-schijven RMA te sturen? Hopelijk hou je dit topic nog even in de gaten, zodat we wellicht vanavond tot een besluit kunnen komen.

Enne, dikke thumbs up voor het helpen van een tweaker in nood d:)b

[ Voor 32% gewijzigd door _eXistenZ_ op 08-05-2012 18:13 ]

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Kleine update en vergeef de dubbelpost maar dit vind ik ernstig genoeg: het dd-commando heeft mijn tot nu toe stabiele schijf sde ook laten droppen uit de array:

#cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md4 : active raid5 sdg1[2] sdf1[1]
      2930111104 blocks level 5, 64k chunk, algorithm 2 [3/2] [_UU]

md127 : inactive sdd2[2](S)
      505920 blocks

md125 : inactive sdb2[3](S) sda2[0](S)
      1011840 blocks

md1 : active raid1 sdd1[1] sdc1[0] sda1[2] sdb1[3]
      40064 blocks [4/4] [UUUU]

md2 : active raid5 sdd3[1] sdc3[0] sda3[2] sdb3[3]
      14675136 blocks level 5, 64k chunk, algorithm 2 [4/4] [UUUU]

md3 : active raid5 sdd4[1] sdc4[0] sda4[2] sdb4[3]
      1448837760 blocks level 5, 64k chunk, algorithm 2 [4/4] [UUUU]

unused devices: <none>


Let niet op md125 en md127, dat zijn knutselbouwwerken van mij, wilde ooit swap op raid10 zetten maar niet echt afgemaakt :)

En een deel van de tekst die voorbij kwam op mijn scherm:
1822491968+4187578 records in
1826679546+0 records out
935259927552 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s
dd: reading `/dev/sde': Input/output error
1822491968+4187579 records in
1826679547+0 records out
935259928064 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s
dd: reading `/dev/sde': Input/output error
1822491968+4187580 records in
1826679548+0 records out
935259928576 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s
dd: reading `/dev/sde': Input/output error
1822491968+4187581 records in
1826679549+0 records out
935259929088 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s
dd: reading `/dev/sde': Input/output error
1822491968+4187582 records in
1826679550+0 records out
935259929600 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s
dd: reading `/dev/sde': Input/output error
1822491968+4187583 records in
1826679551+0 records out
935259930112 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s
dd: ^Creading `/dev/sde': Input/output error
1822491968+4187584 records in
1826679552+0 records out
935259930624 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s
1822491968+4187585 records in
1826679552+0 records out
935259930624 bytes (935 GB) copied, 10298.5 s, 90.8 MB/s


Het lijkt of de raidcontroller dus hoe dan ook schijven dropt die geen TLER hebben en even een foute sector willen recoveren? :S

Ik sluit me NAS nu af, want ik wordt gek van het gepiep...

Volgens mij kan mijn NAS nu niet meer aan want deze zal gaan rebuilden en weer gaan failen (ik kan wel zeggen dat die ene disk dood is en em uit de array droppen en op 2 disken draaien tot we weten wat het probleem is)

[ Voor 7% gewijzigd door _eXistenZ_ op 09-05-2012 00:19 ]

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

  • DP Kunst
  • Registratie: Juni 2003
  • Laatst online: 10-09 22:34
Ik zou eens kijken naar de driver van je rocketraid. Ik heb zelf ook zoiets gehad. Begon het ding ineens als een gek te piepen. Bij een reboot was toen de hele rocketraid niet meer te vinden. Moest hem eerst opnieuw installeren voordat deze weer werkte.

Mijn nieuwe portfolio (Under Construction) | Benieuwd wat Solar Team Twente gaat doen?


Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Daar kan ook wat mis mee zijn (geen support meer van de fabrikant voor nieuwere linux-kernels, maar wel open source drivers, dus patches geschreven door de community) maar ik denk niet zo zeer dat dat het kan zijn... dan hadden meer mensen problemen.

Op dit moment zit ik er aan te denken mijn huidige RocketRaid 2320 te verkopen en 4 van zulke: pricewatch: Sweex 2 Port Serial ATA PCI Card er in te gooien ofzo... :( Het hele idee van MDADM is dat mijn disken alsnog prima benaderbaar zullen zijn :)

[ Voor 7% gewijzigd door _eXistenZ_ op 08-05-2012 20:30 ]

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

  • jan99999
  • Registratie: Augustus 2005
  • Laatst online: 06-09 20:46
Van een highpoint raid controller had ik vroeger eentje die bij booten heel hard geluid maakte, omdat er te weinig stroom was(wat ik vermoedt), heeft het wel altijd gedaan. En heel veel jaren geleden was dit.
Ja er zat een luidspreker op de raid kaart.

[ Voor 9% gewijzigd door jan99999 op 08-05-2012 20:47 ]


Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Zojuist men NAS weer opgestart, dit uitgevoerd:

smartctl -l scterc,70,70 /dev/sd[abcdefg]
http://forums.storagerevi...hp/topic/28333-tler-cctl/

Waardoor de Samsung-schijven die ik heb nu in Raid-mode (met LTER aan dus) draaien en dus niet meer uit de array zouden moeten flikkeren, en snel backups van alle belangrijke data getrokken naar mijn laptop ( :X )

Daarna de /dev/sde-disk weer toegevoegd aan de raid array, die nu volop staat te rebuilden... :X Laten we hopen dat dat goed gaat...

/edit

Rebuild gelukt :). Ik ga nu kijken voor een PCI-e SAS HBA zonder RAID, waarop ik mijn schijven kan aansluiten om het gezeur van TLER-schijven te voorkomen. MDADM maalt hier niet om, het is slechts de RocketRaid-kaart die de schijven dropt... de RocketRaid gaat op Marktplaats.

[ Voor 33% gewijzigd door _eXistenZ_ op 09-05-2012 21:45 ]

There is no replacement for displacement!


Acties:
  • 0 Henk 'm!

  • _eXistenZ_
  • Registratie: Februari 2004
  • Laatst online: 23:46
Kick!

Sinds een aantal dagen de schijven op TLER enabled mode staan, met een max timeout van 7 seconden.
Vanmiddag weer gepoogd om /dev/sde uit te lezen om zo de slecht leesbare sectoren boven water te krijgen:

# dd if=/dev/sde of=/dev/null bs=512 conv=sync,noerror
2930277168+0 records in
2930277168+0 records out
1500301910016 bytes (1.5 TB) copied, 19530.8 s, 76.8 MB/s


Kortom, prima gelukt (heeft er 5.5 uur over gedaan), maar de 5 errors die ik in beeld zou moeten krijgen blijven uit... current_pending_sector is iig weer naar 0 gegaan *O* eens even een selftest draaien en zien offie daar doorheen komt...

ik weet nu iig wel waardoor de droppende disks kwam, dat is puur door LTER gekomen, het feit ik gewoon een dd kan doen zonder gezeur als de TLER op 7 seconden staat bewijst dat :)

[ Voor 35% gewijzigd door _eXistenZ_ op 11-05-2012 21:06 ]

There is no replacement for displacement!

Pagina: 1