Linux Software RAID5 inactive

vrijdag 3 januari 2020 23:43

Acties:

Topicstarter

Gisteren mijn Ubuntu Server 16.04 die ik jaren terug in elkaar stak een reboot gegeven daar ik plots geen bestanden op mijn RAID5 kon benaderen. Na de reboot wou de Server enkel nog in recovery mode opstarten.

Mijn googlfu bracht me bij m'n RAID die een fail gaf bij de boot, ik heb deze uit fstab gehaald server opnieuw opgestart en alles werkt netjes wat moet netjes werken. Buiten m'n RAID5 ! Deze doet het dus niet meer.

Mijn RAID 5 bestaat uit 6 x 3 TB schijven. Deze werkt al jaren zonder problemen.
Wat lopen googlen en gelijkaardige problemen tegengekomen op het net. Echter lukt het mij niet om m'n raid te herstellen.

Stap 1 proberen de raid manueel te mounten. Geen geluk.

x@x:~$ sudo mount -t ext4 /dev/md0 /storage
mount: wrong fs type, bad option, bad superblock on /dev/md0,
missing codepage or helper program, or other error

In some cases useful info is found in syslog - try
dmesg | tail or so.

Wat details opgevraagd van de raid

x@x:~$ sudo mdadm --detail /dev/md0
/dev/md0:
Version : 1.2
Raid Level : raid0
Total Devices : 6
Persistence : Superblock is persistent

State : inactive

Name : Server:0
UUID : 61d15719:62f3814a:e5712e01:994bec15
Events : 948306

Number Major Minor RaidDevice

- 8 97 - /dev/sdg1
- 8 81 - /dev/sdf1
- 8 65 - /dev/sde1
- 8 49 - /dev/sdd1
- 8 33 - /dev/sdc1
- 8 17 - /dev/sdb1

Daar zie ik nu staan dat Raid level op 0 staat? Moet dat niet 5 zijn?
Daarna schijf per schijf afgegaan en in detail bekeken.

5 van de 6 schijven geven bij Events hetzelfde aan buiten 1 (De sdc1)
Via google wat lopen zoeken en deze zou vermoedelijk niet meer in sync zijn en dus zou ik deze evenuteel als failed kunnen plaatsen, verwijderen en opnieuw invoegen om alles opnieuw aan te maken.

Dat lukt dus niet... Krijg volgende foutmelding.

x@x:~$ sudo mdadm --manage /dev/md0 --fail /dev/sdc
mdadm: Cannot get array info for /dev/md0

En dat terwijl de raid er wel is

x@x:~$ cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : inactive sdg1[6](S) sdd1[2](S) sdc1[1](S) sdf1[4](S) sdb1[5](S) sde1[3](S)
17580819456 blocks super 1.2

unused devices: <none>

Nu heb ik getracht de config file te verwijderen en dan volgende command uitgevoerd

x@x:~$ sudo rm /etc/mdadm/mdadm.conf
x@x:~$ sudo mdadm --assemble --scan --verbose
mdadm: looking for devices for further assembly
mdadm: no recogniseable superblock on /dev/dm-1
mdadm: no recogniseable superblock on /dev/dm-0
mdadm: no RAID superblock on /dev/sdg
mdadm: no RAID superblock on /dev/sdf
mdadm: no RAID superblock on /dev/sde
mdadm: no RAID superblock on /dev/sdd
mdadm: no RAID superblock on /dev/sdc
mdadm: no RAID superblock on /dev/sdb
mdadm: no RAID superblock on /dev/sda3
mdadm: no RAID superblock on /dev/sda2
mdadm: no RAID superblock on /dev/sda1
mdadm: no RAID superblock on /dev/sda
mdadm: /dev/sdg1 is identified as a member of /dev/md/0, slot 5.
mdadm: /dev/sdf1 is identified as a member of /dev/md/0, slot 3.
mdadm: /dev/sde1 is identified as a member of /dev/md/0, slot 0.
mdadm: /dev/sdd1 is identified as a member of /dev/md/0, slot 2.
mdadm: /dev/sdc1 is identified as a member of /dev/md/0, slot 1.
mdadm: /dev/sdb1 is identified as a member of /dev/md/0, slot 4.
mdadm: added /dev/sde1 to /dev/md/0 as 0 (possibly out of date)
mdadm: added /dev/sdc1 to /dev/md/0 as 1 (possibly out of date)
mdadm: added /dev/sdf1 to /dev/md/0 as 3
mdadm: added /dev/sdb1 to /dev/md/0 as 4
mdadm: added /dev/sdg1 to /dev/md/0 as 5
mdadm: added /dev/sdd1 to /dev/md/0 as 2
mdadm: /dev/md/0 assembled from 4 drives - not enough to start the array.
mdadm: looking for devices for further assembly
mdadm: No arrays found in config file or automatically
x@x:~$ cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
unused devices: <none>

Niets dus... Wetende dat ik een leek ben betreffende Linux en alles heb werkende gekregen via google & tutrorials had ik graag wat hulp gehad van jullie indien mogelijk.

ik wil geen discussie starten waarom ik nog op 16.04 zit en waarom ik geen RAID5 meer zou mogen gebruiken enzo... Dit systeem werkte jaren zonder problemen en daar was ik best trots op. En iets dat goed werkt verknoeit m'n niet...

Iedere duw in de juiste richting is zeker welkom!

vrijdag 3 januari 2020 23:53

Acties:

jimmy87

Ik vermoed dat een van je disks is overleden en volgens mdadm gebruik je echt een RAID0 en geen RAID5, wat waarschijnlijk ook de reden is dat die geen superblock meer kan vinden.

Wat zijn je smartctl waarden? Heb je misschien een mdadm output van toen je array het nog wel deed?

[ Voor 22% gewijzigd door jimmy87 op 03-01-2020 23:54 ]

zaterdag 4 januari 2020 00:13

Acties:

Aganim

I have a cunning plan..

jimmy87 schreef op vrijdag 3 januari 2020 @ 23:53:
Ik vermoed dat een van je disks is overleden en volgens mdadm gebruik je echt een RAID0 en geen RAID5

Zowel /dev/sde1 als /dev/sde1 lijken out of date te zijn, omdat er twee schijven niet in orde zijn kan het array niet meer opgebouwd worden. Dat mdadm het array hierna als raid0 aanmerkt ipv raid5 ben ik in de praktijk wel vaker tegengekomen, bij een corrupt array neem ik die output dan ook met een korreltje zout.

Heb je nog een backup van dit array? De kans is aanwezig dat iedere herstelpoging tot het volledig kwijtraken van je data gaat leiden, voor zover die nog niet weg is.

Mijn advies zou anders zijn om in ieder geval te zorgen voor een bit voor bit kopie van je schijven en daarmee te experimenteren als je data je lief is ipv de originele schijven aan te raken. Tot die tijd lijkt iedere poging om deze data te herstellen mij niet verstandig.

zaterdag 4 januari 2020 00:47

Acties:

Amarog

Topicstarter

Ik heb geen backup van de Array neen.
De data die op de raid staat is voor mij niet van levensbelang... Het zal pieken mocht ik de data kwijt zijn maar een ramp is het niet.

Ik heb hier ook geen schijven genoeg liggen om alles even te kopiëren.

Jimmy als ik schijf per schijf check staat er wel degelijk dat ze deel uit maken van een RAID5.

Aganim, ik had ook al een vermoeden dat er 2 schijven out zijn.

Hoe ga ik nu verder te werk? Ook al bestaat de kans dat ik m’n data verlies, we moeten vooruit.

zaterdag 4 januari 2020 04:34

Acties:

.Maarten

Wat zijn de smart waardes dan alle disks?

zaterdag 4 januari 2020 10:44

Acties:

Amarog

Topicstarter

Ik veronderstel dat dat je deze bedoeld:

smartctl --all /dev/sdc1
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.19.0-041900rc4-lowlatency] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD30EZRX-00DC0B0
Serial Number: WD-WMC1T2306952
LU WWN Device Id: 5 0014ee 058dbb718
Firmware Version: 80.00A80
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Jan 4 10:39:23 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (39840) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 399) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x70b5) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 170 170 021 Pre-fail Always - 6475
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 262
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 020 020 000 Old_age Always - 58689
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 262
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 159
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1126659
194 Temperature_Celsius 0x0022 137 105 000 Old_age Always - 13
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 54
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

&

sudo smartctl --all /dev/sdg1
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.19.0-041900rc4-lowlatency] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD30EFRX-68EUZN0
Serial Number: WD-WCC4N2LRP79Z
LU WWN Device Id: 5 0014ee 211427ea5
Firmware Version: 82.00A82
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Sat Jan 4 10:41:59 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (38940) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 391) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x703d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 253 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 174 174 021 Pre-fail Always - 6300
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 9
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1520
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 9
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 4
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 1324
194 Temperature_Celsius 0x0022 139 119 000 Old_age Always - 11
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

&

sudo smartctl --all /dev/sdf1
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.19.0-041900rc4-lowlatency] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD30EFRX-68EUZN0
Serial Number: WD-WCC4N2RL198S
LU WWN Device Id: 5 0014ee 263a66388
Firmware Version: 82.00A82
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Jan 4 10:42:26 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (41640) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 418) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x703d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 170 170 021 Pre-fail Always - 6475
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 73
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 067 067 000 Old_age Always - 24241
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 73
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 40
193 Load_Cycle_Count 0x0032 184 184 000 Old_age Always - 50900
194 Temperature_Celsius 0x0022 136 103 000 Old_age Always - 14
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

&

sudo smartctl --all /dev/sde1
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.19.0-041900rc4-lowlatency] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD30EFRX-68EUZN0
Serial Number: WD-WCC4N4NL5TRY
LU WWN Device Id: 5 0014ee 2b8fc1b93
Firmware Version: 82.00A82
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Jan 4 10:42:58 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (40860) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 410) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x703d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 174 174 021 Pre-fail Always - 6266
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 84
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 1
9 Power_On_Hours 0x0032 067 067 000 Old_age Always - 24250
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 84
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 50
193 Load_Cycle_Count 0x0032 184 184 000 Old_age Always - 50916
194 Temperature_Celsius 0x0022 138 104 000 Old_age Always - 12
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

&

sudo smartctl --all /dev/sdd1
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.19.0-041900rc4-lowlatency] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Green
Device Model: WDC WD30EZRX-00DC0B0
Serial Number: WD-WMC1T2306122
LU WWN Device Id: 5 0014ee 6adcb4ca4
Firmware Version: 80.00A80
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Jan 4 10:43:33 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (39840) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 399) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x70b5) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 154 154 021 Pre-fail Always - 7266
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 264
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 020 020 000 Old_age Always - 58690
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 264
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 161
193 Load_Cycle_Count 0x0032 001 001 000 Old_age Always - 1151238
194 Temperature_Celsius 0x0022 137 102 000 Old_age Always - 13
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

&

sudo smartctl --all /dev/sdb1
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.19.0-041900rc4-lowlatency] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Red
Device Model: WDC WD30EFRX-68EUZN0
Serial Number: WD-WCC4N2RL13EC
LU WWN Device Id: 5 0014ee 2b8fb9aab
Firmware Version: 82.00A82
User Capacity: 3,000,592,982,016 bytes [3.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Jan 4 10:43:57 2020 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (39120) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 393) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x703d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 173 173 021 Pre-fail Always - 6308
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 70
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 068 068 000 Old_age Always - 23773
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 70
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 39
193 Load_Cycle_Count 0x0032 184 184 000 Old_age Always - 50438
194 Temperature_Celsius 0x0022 138 106 000 Old_age Always - 12
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

zaterdag 4 januari 2020 13:30

Acties:

pennywiser

Ik zie sws 2 WD green disks met load cycle counts van meer dan een miljoen. En 300k is al te veel voor zo'n green. Monitor je deze waardes met smartctl? Dit had je uit moeten zetten met idle3
http://idle3-tools.sourceforge.net/
https://www.ixsystems.com...s-with-wdidle3-exe.18171/

In ieder geval had je die 2 disks lang geleden moeten vervangen toen het nog kon.

Toen ik las het draait al jaren, asl het werkt niet aankomen etc. wist al meteen dat dat je nou net het probleem is.

Er zijn denk ik 2 disks stuk, wat 1 teveel is.

zaterdag 4 januari 2020 14:05

Acties:

Amarog

Topicstarter

@pennywiser ik ben een leek betreffende dergelijke zaken. Ik heb gewoon een RAID5 opgezet omdat daar 1 tot 2 schijven mogen "crashen". Dat was toen wat ik het meest kon vinden op google. Verder heb ik daar nooit veel energie in gestoken.

Ik ben geen linux pro, noch een RAID pro... Ik doe maar wat. En meestal via tutorials op het net. Het werkte jaren goed dus waarom ingrijpen? (En al zeker als je niet weet waar je naar moet kijken of op letten

).

Dus, vermoedelijk niet meer herstelbaar dus?

Andere vraag dan, zijn alle 6 schijven nog goed of zijn er 2 werkelijk stuk?
Kan ik met de andere 4 na een format gewoon een nieuwe RAID opzetten?
En wat neem ik dan het best vandaag de dag? De gegevens die er op zullen gaan staan zijn niet van levensbelang maar ik verlies ze liever niet ieder jaar

Dus een schijf die crashed zou toch vlot vervangbaar moeten zijn...

Hou ik het bij een software RAID of ga ik over op een Hardware Raid? Waar al het harde werk niet meer voor mij is?

Iets als: pricewatch: Synology RackStation RS820+

zaterdag 4 januari 2020 14:11

Acties:

pennywiser

Waarom ingrijpen? Om te kijken of je disks nog goed zijn bv. Raid 5 mag er altijd 1 crashen, niet 1 tot 2. Een crash van disks 2 kan met raid 6, double parity. Als je (in geval van raid 5 single) parity weg is, doordat er dus waarschijnlijk 2 schijven stuk zijn, is je data weg.

Software raid is prima, ik gebruik het zelf ook, mits je deze goed monitort en tijdig ingrijpt.

Idle3 op de overige disks toepassen en monitoren, en raid 6 gebruiken.

Hardware raid kan ook tricky wezen, ik heb er zelf weinig ervaring mee.

zaterdag 4 januari 2020 16:43

Acties:

Amarog

Topicstarter

Vinzz, je hebt absoluut gelijk, maar ik had nooit gedacht dat ik dat zelf diende te monitoren, ik ging er vanuit dat als een schijf op crashen stond of effectief crashte dat mdam mij dat wel zou laten weten, schijf er uit en nieuwe er in...

Niet zo simpel blijkbaar...

Nu zitten alle schijven ook nog eens m'n case, dus, deze moet ik steeds uit de rack halen, openvijzen en een nieuwe insteken.

Daarom lijkt mij, nu de huidige RAID toch verloren is gegaan het verstandig voor een andere oplossing te kiezen. Liefst een rack versie (netjes weg te werken enzo...) en eentje met hotswap eventueel. Laat de hardware maar al het werk doen dan, neen?

Btw, welke schijven zijn er nu effectief verloren gegaan, die 2 green's dan? deze zijn dan niet meer bruikbaar?

Alvast allemaal bedankt voor al de hulp die ik reeds kreeg trouwens!

donderdag 9 januari 2020 07:50

Acties:

jimbo123

Disks > 1TB “mag” je helemaal niet in raid5 zetten. Zoek maar eens op URE, de kans op die situatie is (te) groot.

donderdag 9 januari 2020 11:03

Acties:

nelizmastr

Goed wies kapot

jimbo123 schreef op donderdag 9 januari 2020 @ 07:50:
Disks > 1TB “mag” je helemaal niet in raid5 zetten. Zoek maar eens op URE, de kans op die situatie is (te) groot.

Niet mogen en niet best practice zijn, zijn natuurlijk twee verschillende werelden. Hetzelfde geldt
in principe voor RAID6. Weliswaar heb je een extra schijf redundantie, maar de techniek is hetzelfde.

Betere vraag, wat zou jij hier adviseren? ZFS? RAID1+0?

Uiteindelijk maakt RAID level niet veel uit; als je back-up niet op orde is kan je net zo goed JBOD gaan doen en alle disks aan elkaar plakken.

I reject your reality and substitute my own - R7 5800X3D - B550M PG Riptide - 32GB Ballistix DDR4-3600 @ C15 - RX7800XT - V750 Gold

Vraag

Alle reacties