[Fedora Core] RAID issues - Linux en overige clients

dinsdag 26 september 2006 01:40

Acties:

Verwijderd

Topicstarter

Hoi allen.

Ik heb al enige jaren een RAID 5 config draaien onder linux. Hier is af en toe wat in fout gegaan (dode schijf, tot zelfs 2 dode schijven enz)

Nu was het gisteren weer eens zo ver (gebeurd gemiddeld eens per jaar denk ik). Een schijf viel uit m'n array. Geen probleem, de twee anderen bollen vrolijk door, dus m'n data ben ik nu aan't backuppen.

Telkens als ik een probleem heb met een schijf uit m'n array, laat ik er smartctl op los

code:

1	smartctl -a /dev/hda

Dit geeft me dan de SMART status van die bepaalde harde schijf, en telkens was daar minimaal 1 fout te bespeuren zoiets als:

code:

Error 1 occurred at disk power-on lifetime: 7430 hours (309 days + 14 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  00 50 30 87 60 1f e0   48 sectors at LBA = 0x001f6087 = 2056327

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 00 30 87 60 1f e0 00  33d+13:33:58.490  READ DMA EXT
  25 00 38 7f 60 1f e0 00  33d+13:33:58.427  READ DMA EXT
  35 00 80 ff 5f 1f e0 00  33d+13:33:58.421  WRITE DMA EXT
  35 00 80 7f 5f 1f e0 00  33d+13:33:58.415  WRITE DMA EXT
  35 00 80 ff 5e 1f e0 00  33d+13:33:58.408  WRITE DMA EXT

gevolg: RAID array werkt niet meer!
Ik ging steeds met dit error report naar de winkel, en kreeg een nieuwe schijf.
Omdat het nu weer eens gebeurde, besloot ik om de schijf waar de installatie opstaat eens te controlleren, en wat zie ik:

code:

ATA Error Count: 8 (device log contains only the most recent five errors)
        CR = Command Register [HEX]
        FR = Features Register [HEX]
        SC = Sector Count Register [HEX]
        SN = Sector Number Register [HEX]
        CL = Cylinder Low Register [HEX]
        CH = Cylinder High Register [HEX]
        DH = Device/Head Register [HEX]
        DC = Device Command Register [HEX]
        ER = Error register [HEX]
        ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 8 occurred at disk power-on lifetime: 319 hours (13 days + 7 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 ff ff ff ef  Error: IDNF at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 80 df 8e d7 e0 00      00:01:43.000  WRITE DMA
  ca 00 80 5f 8e d7 e0 00      00:01:43.000  WRITE DMA
  c8 00 60 47 7c bd e0 00      00:01:43.000  READ DMA
  c8 00 08 8f 9c b9 e0 00      00:01:43.000  READ DMA
  c8 00 08 87 6b b5 e0 00      00:01:42.950  READ DMA

Error 7 occurred at disk power-on lifetime: 318 hours (13 days + 6 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 ff ff ff ef  Error: IDNF at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 08 57 c6 b6 e0 00      00:01:38.500  WRITE DMA
  ca 00 08 c7 50 b3 e0 00      00:01:38.500  WRITE DMA
  c8 00 08 8f 01 ac e0 00      00:01:38.500  READ DMA
  ca 00 08 e7 27 9b e0 00      00:01:38.500  WRITE DMA
  c8 00 08 77 82 33 e0 00      00:01:38.500  READ DMA

Error 6 occurred at disk power-on lifetime: 315 hours (13 days + 3 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 ff ff ff ef  Error: IDNF at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 01 17 45 d7 e0 00      00:02:01.200  WRITE DMA
  c8 00 40 39 4f c6 e0 00      00:02:01.200  READ DMA
  c8 00 08 7f 2a b9 e0 00      00:02:01.200  READ DMA
  c8 00 08 b7 8f b6 e0 00      00:02:01.200  READ DMA
  c8 00 40 59 4a ae e0 00      00:02:01.200  READ DMA

Error 5 occurred at disk power-on lifetime: 310 hours (12 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 ff ff ff ef  Error: IDNF at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 08 47 e2 ba e0 00      00:01:52.350  WRITE DMA
  c8 00 08 ef c4 b4 e0 00      00:01:52.350  READ DMA
  c8 00 08 3f 89 b4 e0 00      00:01:52.350  READ DMA
  c8 00 08 9f 10 af e0 00      00:01:52.300  READ DMA
  c8 00 08 77 54 ae e0 00      00:01:52.300  READ DMA

Error 4 occurred at disk power-on lifetime: 155 hours (6 days + 11 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  10 51 01 ff ff ff ef  Error: IDNF at LBA = 0x0fffffff = 268435455

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ca 00 08 a7 e0 c3 e0 00      00:01:45.100  WRITE DMA
  c8 00 08 9f 20 b4 e0 00      00:01:45.100  READ DMA
  c8 00 08 3f a4 b1 e0 00      00:01:45.100  READ DMA
  c8 00 08 9f 03 ac e0 00      00:01:45.100  READ DMA
  ca 00 10 d7 98 a3 e0 00      00:01:45.100  WRITE DMA

heel veel errors dus!!!
maar deze disk draait vrolijk door, m'n server draait goed, geen problemen en nergens last van.
Is deze disk nu ook op sterven na dood, of zijn deze SMART eroors 'normaal' en 'kunnen ze geen kwaad'? Indien dat zo is, waarom bijt m'n RAID5 er zich dan steeds weer z'n tanden op stuk?

dinsdag 26 september 2006 23:03

Acties:

Verwijderd

Topicstarter

het goede nieuws is: ik heb een nieuwe schijf gekregen! (garantie was nog 3 weken geldig!)

dinsdag 26 september 2006 23:27

Acties:

Sjonny

Fratser

ik heb eigenlijk nooit op die SMART info gelet, dus daar kan ik weinig over zeggen, maar wanneer een harddisk stuk gaat, merk je dat heel goed in je /var/log/messages, die dan met gruwlijke error messages vol kan lopen. vaak wordt dan als 'counter-measure' door linux de DMA van die disk uitgeschakeld, en dat merk je dus ook goed in de load en snelheid van de disk.

The problem is in the part of your brain that handles intelligence.

dinsdag 26 september 2006 23:57

Acties:

Verwijderd

Topicstarter

tjah, men /var/log/messages toont helemaal niets aan messages.
daar was ik ook meteen gaan kijken, zeer vreemd dus. Gewoonlijk staat er wel wat in als een raid disk het laat afweten... deze keer niet dus...