[Fedora] Fail event on md device - Linux en overige clients

donderdag 10 februari 2005 19:26

Acties:

Topicstarter

Hallo!

Ik kreeg net een mailtje van mun server met de droevige mededeling:
Fail event had been detected on md device /dev/md2.

Nu heb ik een jaar geleden toen ik Fedora installeerde , één HD los getrokken en daarna weer aangesloten om zulke fouten te simuleren(zodat ik er een klein beetje ervaring in kreeg). Maar er is nu maar 1 partitie die op missing staat van de 3. Dus de HD zelf werkt nog??

Nu zou ik graag willen weten voordat ik de "slechte hd" opnieuw partitioneer en opnieuw toevoeg aan de array of er geen ander truckje is om hem te herstellen.

Hij geeft namelijk met "lsraid -a /dev/md2" het volgende

code:

1
2
3

[dev   9,   2] /dev/md2         F1718D6A.94FA87CA.702E24BE.354E583F online
[dev   ?,   ?] (unknown)        00000000.00000000.00000000.00000000 missing
[dev  22,   3] /dev/hdc3        F1718D6A.94FA87CA.702E24BE.354E583F good

maar met "mdadm -E /dev/hda3"

code:

/dev/hda3:
          Magic : a92b4efc
        Version : 00.90.00
           UUID : f1718d6a:94fa87ca:702e24be:354e583f
  Creation Time : Sun Aug 15 14:36:44 2004
     Raid Level : raid1
    Device Size : 58925056 (56.20 GiB 60.34 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 2

    Update Time : Thu Feb 10 17:01:04 2005
          State : dirty, no-errors
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0
       Checksum : 5c3f33f7 - correct
         Events : 0.7940573


      Number   Major   Minor   RaidDevice State
this     0       3        3        0      active sync   /dev/hda3

   0     0       3        3        0      active sync   /dev/hda3
   1     1      22        3        1      active sync   /dev/hdc3

Met het ene commando missing, en de andere dirty. Als ik in /var/log/messages zie ik het onderstaande. Zou dit duiden op bad sectors?

De HD is al volgt ingedeeld
MD1=Boot
MD2=/
MD3=SWAP

code:

Feb 10 17:01:04 SRV1 kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
Feb 10 17:01:04 SRV1 kernel: hda: dma_intr: error=0x40 { UncorrectableError }, LBAsect=120064567, sector=120064480
Feb 10 17:01:04 SRV1 kernel: ide: failed opcode was: unknown
Feb 10 17:01:04 SRV1 kernel: end_request: I/O error, dev hda, sector 120064480
Feb 10 17:01:05 SRV1 kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
Feb 10 17:01:05 SRV1 kernel: hda: dma_intr: error=0x40 { UncorrectableError }, LBAsect=120064567, sector=120064488
Feb 10 17:01:05 SRV1 kernel: ide: failed opcode was: unknown
Feb 10 17:01:05 SRV1 kernel: end_request: I/O error, dev hda, sector 120064488
Feb 10 17:01:07 SRV1 kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
Feb 10 17:01:07 SRV1 kernel: hda: dma_intr: error=0x40 { UncorrectableError }, LBAsect=120064567, sector=120064496
Feb 10 17:01:07 SRV1 kernel: ide: failed opcode was: unknown
Feb 10 17:01:07 SRV1 kernel: end_request: I/O error, dev hda, sector 120064496
Feb 10 17:01:07 SRV1 kernel: raid1: Disk failure on hda3, disabling device.
Feb 10 17:01:10 SRV1 kernel: ^IOperation continuing on 1 devices
Feb 10 17:01:10 SRV1 kernel: raid1: hda3: rescheduling sector 117811600
Feb 10 17:01:10 SRV1 kernel: raid1: hdc3: redirecting sector 117811600 to another mirror
Feb 10 17:01:10 SRV1 kernel: hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
Feb 10 17:01:10 SRV1 kernel: hda: dma_intr: error=0x40 { UncorrectableError }, LBAsect=120064567, sector=120064504
Feb 10 17:01:11 SRV1 kernel: ide: failed opcode was: unknown
Feb 10 17:01:12 SRV1 kernel: end_request: I/O error, dev hda, sector 120064504
Feb 10 17:01:12 SRV1 kernel: raid1: hda3: rescheduling sector 117811624
Feb 10 17:01:12 SRV1 kernel: raid1: hdc3: redirecting sector 117811624 to another mirror
Feb 10 17:01:12 SRV1 kernel: RAID1 conf printout:
Feb 10 17:01:12 SRV1 kernel:  --- wd:1 rd:2
Feb 10 17:01:13 SRV1 kernel:  disk 0, wo:1, o:0, dev:hda3
Feb 10 17:01:13 SRV1 kernel:  disk 1, wo:0, o:1, dev:hdc3
Feb 10 17:01:13 SRV1 kernel: RAID1 conf printout:
Feb 10 17:01:13 SRV1 kernel:  --- wd:1 rd:2
Feb 10 17:01:13 SRV1 kernel:  disk 1, wo:0, o:1, dev:hdc3

Alvast bedankt

donderdag 10 februari 2005 20:18

Acties:

Gondor

Ik weet niet of je eerst moet rebooten, maar probeer dit eens:

code:

1	mdadm --add /dev/md2 /dev/hda3

"Peace cannot be kept by force. It can only be achieved by understanding"-Albert Einstein-

donderdag 10 februari 2005 21:47

Acties:

leo2222

Topicstarter

Ik heb het even ingetypt, hij was daarna een halfuurtje bezig met rebuilden en het werkt weer! tnx.
[dat het ook zo simpel kon had ik eigenlijk niet gedacht

]

Maar 't blijft wel raar dat de reden onbekend is de log's.
.

donderdag 10 februari 2005 23:13

Acties:

_JGC_

Mja, je hda disk is aant sterven en linux had geen zin om te wachten op bad sector remapping. Ik zou persoonlijk zsm die disk testen met het tooltje van de fabrikant om vervolgens dat ding op te sturen. Vertrouwen doe ik een disk dus absoluut niet zodra ik dingen als "DriveReadySeekComplete" errors in dmesg tegenkom.

vrijdag 11 februari 2005 12:45

Acties:

Gondor

Het hoeft niet per se een defecte hdd te zijn.

Een tijdje geleden is mijn / (root) ook een van zijn partities kwijt (raid1). Ik had wel andere foutmelding gekregen dan de TS.

Gezien de geluiden wat ik heb gehoord voor het mis ging, heb ik een zeer donkerbruine vermoeden dat het aan mijn voeding ligt (q-tec 550w

)

Het kan dus aan zijn voeding liggen. Als de TS een goede voeding heeft is het natuurlijk weer een ander verhaal.

Maar diag tools draaien voor een hdd kan nooit kwaad

"Peace cannot be kept by force. It can only be achieved by understanding"-Albert Einstein-

vrijdag 11 februari 2005 14:11

Acties:

leo2222

Topicstarter

Het lijkt me inderdaad wel een goed idee om de HD te testen!.
Ik denk dat ze nu zoon 2 jaar oud zijn. Ongeveer 1,25 jaar in mijn systeem en daarna zijn ze overgeplaatst naar mun server.
Ze hebben ongeveer 3/4 jaar continue aangestaan zonder problemen en de rest van de HW zoals voeding [FSP] is hetzelfde gebleven.

vrijdag 11 februari 2005 16:52

Acties:

leo2222

Topicstarter

Na een quick check met powermax zij die dat er niks aan de hand was.Ik geef hem een reboot en daarna kwam grub niet meer door stage2. Dus ik heb hem gelijk naar fedora 3 geupdate en na het updaten log ik in. En ja hoor na een paar minuten komt er in beeld hdc timeout. Ik doe mun kast open waar mun server staat .. tik-tik-tik....

Maar na een reboot werkt hij weer, dus powermax staat nu alles te controlleren ipv quick scan. en daarna kan die retour afzender.. Heb gelukkig nog garantie

...
Hij vindt dus helemaal niks. Ik kom er nu ook achter dat er HDC staat ipv HDA.
Zou eerder richting controller/moederboord problemen gaan. Maar door zoon probleem zal je de hdd niet horen tikken. En als het de voeding is zouden ze het beide moeten doen.

Ik heb hem nu opniew aan de array gekoppeld, over een uurjte is die klaar, en dan maar afwachten hoe lang het goed gaat

edit:
Geupdated

[ Voor 30% gewijzigd door leo2222 op 11-02-2005 21:45 ]