probleem: raid-1 schijf word -deels- 'eruit gegooid' - Opslag en back-up

zondag 8 december 2013 12:19

Acties:

Verwijderd

Topicstarter

hallo,
ik heb actueel een probleem met mijn raid-1 computer:
enkele gegevens: loopt op centos 5.10 (actueel), software raid-1, twee sata disks wd-black, schijven zijn identiek (grootte e.d.).
ik heb al enkele keren eerder -bij toeval- gemerkt dat een van de harddisks niet meer in de raid zat.
het vreemde is voor mij:
ik heb raid-partities md0, md1, md2 en md3
md2 en md3 zijn de grotere partities, md2 met /home en md3 met data.
als ik met mdadm --detail de afzonderlijke partities bekijk, zitten md0 en md1 wel in de raid, md2 en md3 zijn eruit....
ik heb met behulp van webmin (loopt ook op de computer) md2 en m3 weer in de raid gevoegd, nu lijkt e.e.a. weer goed te zijn...
bij verder kijken in webmin in de sectie 'raid' kreeg ik twee rapportages te zien, een van sda en een van sdb (de twee schijven):
in het rapport van sdb is blijkbaar alles okay, in het langere rapport van sda wordt gemeld dat er 6 fouten aanwezig zijn... (en uitgebreidere informatie over de fouten, maar voor mij is het akabadabra)

ik weet niet goed hoe met e.e.a. om te gaan:

is het eruitgegooid worden van de ene harddisk een teken dat er met de schijf iets niet goed is?
(wrsch. heb ik nog garantie)
(vorige keren dat het probleem aanwezig was (elke keer bij toeval gevonden) ging het als ik het me goed herinner om dezelfde schijf sda) heb ik de schijf weer met mdadm ingevoegd..
nu bleek ie er dus weer uit te liggen).
kan ik het zo instellen dat ik op een andere computer in het thuisnetwerk een melding krijg dat de raid-1 raar doet?
hoe kan het dat maar een DEEL van de schijf voor problemen zorgt (partities md2 en md3?

dank voor input van raid-1 deskundigen!

edit: er zit een schrijffout in de titel, ik blijk die niet meer te kunnen veranderen

zondag 8 december 2013 12:24

Acties:

_Dune_

Moderator Harde Waren

RAID is geen BACKUP

Als steeds dezelfde hardeschijf er uit wordt gegooid dan is het heel goed mogelijk dat betreffende hardeschijf niet in orde is, verstandig zou zijn om eens de SMART waarden uit te lezen en deze te bekijke (hier te posten). Hoe je op Linux SMART moet uitlezen durf ik zo niet te zeggen (houd mij over het algemeen niet erg bezig met Linux), maar dat moet hier in het forum wel terug te vinden zijn.

Sinds 1999@Tweakers | Bij IT-ers gaat alles automatisch, maar niets vanzelf. | https://www.go-euc.com/

zondag 8 december 2013 12:24

Acties:

Verwijderd

Heb je geen SMART data veiliggesteld? Kun je die alsnog posten? Als je dingen hebt geprobeerd voordat je de SMART uitleest, dan kan het zijn dat zaken als bad sectors niet meer te zien zijn in de SMART output.

En disks die eruit worden gegooid door bad sectors en/of kabelproblemen is weinig nieuws. Wil je daar betere bescherming tegen, zou je naar ZFS kunnen kijken. Maar kijk eerst eens naar de SMART.

zondag 8 december 2013 15:48

Acties:

Verwijderd

Topicstarter

ik heb de volgende SMART data, die ik pas vond toen ik de disk weer in de raid-1 had ingevoegd (zoals ik al schreef met webmin).
de SMART data zijn die welke door webmin worden opgehoest:

>>> de disk sda (de probleemdisk):

Full SMART status report

smartctl 5.42 2011-10-20 r3458 [i686-linux-2.6.18-371.3.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Black
Device Model: WDC WD1002FAEX-00Y9A0
Serial Number: WD-Wxxxxxxxxxxx
LU WWN Device Id: 5 0014ee xxxxxxxxx
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Sun Dec 8 15:01:25 2013 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (16380) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 169) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 168 168 021 Pre-fail Always - 4566
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 425
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 081 081 000 Old_age Always - 14431
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 422
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 146
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 280
194 Temperature_Celsius 0x0022 113 094 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 3
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 12
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 2

SMART Error Log Version: 1
ATA Error Count: 6 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 6 occurred at disk power-on lifetime: 14295 hours (595 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.

>>> de disk sdb (de disk zonder problemen):

Full SMART status report

smartctl 5.42 2011-10-20 r3458 [i686-linux-2.6.18-371.3.1.el5] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family: Western Digital Caviar Black
Device Model: WDC WD1002FAEX-00Y9A0
Serial Number: WD-Wxxxxxxxxxxx
LU WWN Device Id: 5 0014ee xxxxxxxxx
Firmware Version: 05.01D05
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Sun Dec 8 14:59:37 2013 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (16560) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 171) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 165 164 021 Pre-fail Always - 4708
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 335
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 081 081 000 Old_age Always - 14432
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 332
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 56
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 280
194 Temperature_Celsius 0x0022 113 094 000 Old_age Always - 34
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

NB: ik heb de identiteit en het serial number geanonymiseerd.

ik heb na het saven van deze output de computer nog eens afgesloten en weer opgestart.
de twee reports van webmin veranderen daardoor niet. (geen fouten toegevoegd voorzover ik het overzie).

ben benieuwd naar de reacties op deze input.

zondag 8 december 2013 17:20

Acties:

_Dune_

Moderator Harde Waren

RAID is geen BACKUP

CiPHER is beter in het lezen van SMART data, maar ik zou zeggen een kabel probleempje: 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 12.

Sinds 1999@Tweakers | Bij IT-ers gaat alles automatisch, maar niets vanzelf. | https://www.go-euc.com/

zondag 8 december 2013 22:49

Acties:

Verwijderd

Topicstarter

nou, ik kan geen link leggen tussen "199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 12" en "kabel probleempje", en ik vind ook geen info w.b. de betekenis van de fout-meldingen in SMART.

edit: net wel informatie over de foutmeldingen gevonden op http://sourceforge.net/ap...AttributesWestern-Digital, maar de link naar een kabel leg ik nog even niet....

edit2: die link wordt hier wel gelegd: Wikipedia: Talk:S.M.A.R.T.
"Some attribute may be useful to be reset. The "UDMA CRC error" is due to cable issue (damaged, bad shield, bad PSU voltage ...). When replaced cable or moved HDD into another computer, we should reset that attribute. "Smart" idea, isn't it?"

we wachten maar even op de wederopstanding van CiPHER (hopelijk niet pas met pasen

)

[ Voor 52% gewijzigd door Verwijderd op 08-12-2013 23:02 ]

zondag 8 december 2013 23:00

Acties:

Verwijderd

UDMA CRC Error Count = corruptie tijdens verzenden van device naar host, dus kortweg een kabelprobleem. Slechts in een zeldzaam geval is de controller of de device zelf stuk, dat dat de corruptie veroorzaakt. CRC is gewoon een corruptie-test zo kun je het zien. Is de data wel aangekomen zoals verzonden.

Maar die 12 zielige kabelerrors zijn niet zo spannend. Na zo'n kabelerror wordt er direct geretried dus je merkt er niets van als het heel sporadisch voorkomt. Vaak zijn lage errors momenten waarop je bezig was met aansluiten of de kabels bewegen of gewoon een zeldzaam geval van corruptie mogelijk waarbij de kabel niet optimaal is (gebogen, vlakbij EMI-bronnen of gewoon slechte kwaliteit).

Waar ik naar kijk is dit:

code:

1 2	197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 3

Current Pending Sector zijn bad sectors waarvan de hardeschijf wéét dat ze onleesbaar zijn. Die gaan pas weg zodra ze worden overschreven. Alleen als ze fysiek beschadigd zijn, worden ze omgewisseld. In het overgrote deel van alle bad sectors is daarvan geen sprake; zogenaamde uBER read errors - ik noem dat ook gewoon bad sectors. De schijf kan sector X niet leveren maar de rest wel.

Offline Uncorrectable is interessant. Dit is in feite hetzelfde als Current Pending Sector maar dan wordt deze offline geupdate. Dus niet live. En dat is het bewijs!

Zeer waarschijnlijk is het volgende gebeurd:

je had bad sectors op de betreffende schijf
ze zijn door actieve ingreep ofwel overschreven, of zo regelmatig gelezen (Retry-retry-retry) dat het op een gegeven moment wel lukt - niet bij alle bad sectors is (langdurige) recovery mogelijk.
Nadat de (nieuwe) inhoud van de bad sector bekend is, wordt deze overschreven en vervolgens gelezen. Als dat succesvol verloopt wordt de sector gewoon weer in gebruik genomen. De Current Pending Sector verdwijnt dan en Reallocated Sector Count (omgewisselde sectoren) gaat niet omhoog.
In feite is al het bewijs van de bad sector nu verdwenen. Behalve Offline_Uncorrectable; deze verraadt dat je in het verleden wel degelijk bad sectors hebt gehad. Waarvan het totale aantal overigens hoger geweest kan zijn dan de 3 sectoren die vermeld worden.

zondag 8 december 2013 23:12

Acties:

Verwijderd

Topicstarter

dank voor deze info, ik laat het even op me inwerken

(want de vraag dringt zich op of het uit de raid gegooid worden van deze schijf daar het gevolg van was - en of het dan elk moment weer opnieuw kan gebeuren: ik ben een beetje ongerust over de mogelijkheid dat ik een raid-1 draai, in de aanname verkeer dat ik twee gespiegelde disks heb en dat ik als een van de disks (m.n. sdb in mijn geval) echt uitvalt door een crash dan tot de ontdekking kom, dat er al een poos geen sprake was van een werkende raid-1, omdat disk sda er weer korter of langer uitgewipt was)

zondag 8 december 2013 23:21

Acties:

Verwijderd

Schijven die uit RAID arrays gegooid worden is een veelvoorkomend probleem. Dat het ook bij Linux gebeurt zou ik niet zo netjes vinden, want opzich is dat een van de betere software RAID engines.

Mocht je zorgen hebben over je data en je data beter willen beschermen, kun je ook eens kijken naar ZFS. Wellicht vind je ook mijn reactie in de lopende draad over ZFS interessant.