mdadm Raid5 toch nog om zeep? - Linux en overige clients

maandag 22 oktober 2007 17:59

Acties:

Verwijderd

Topicstarter

Ik heb (of misschien had) hier een raid5 systeem van 4 disks van 250GB elk. Omdat mijn systeem soms vreemd bootte heb ik 2 van de 4 disks voorzien van een andere ide kabel.

Blijkbaar had ik deze kabel niet goed aangedrukt (DOMDOMDOM!) en is deze vermoedelijk lostgeraakt. Het gevolg was dat er dus 2 disken weg waren uit de raid5. Dit is dus dodelijk voor raid5..

Oct 22 16:46:26 server01 kernel: [16139.192000] hdc: drive_cmd: status=0x51 { DriveReady SeekComplete Error }
Oct 22 16:46:26 server01 kernel: [16139.192000] hdc: drive_cmd: error=0x04 { DriveStatusError }
Oct 22 16:46:26 server01 kernel: [16139.192000] ide: failed opcode was: 0xea
Oct 22 16:46:26 server01 kernel: [16139.192000] md: super_written gets error=-5, uptodate=0
Oct 22 16:46:26 server01 kernel: [16139.192000] hdd: drive_cmd: status=0x2a { DeviceFault DataRequest Index }
Oct 22 16:46:26 server01 kernel: [16139.192000] ide: failed opcode was: 0xea
Oct 22 16:46:46 server01 kernel: [16159.192000] hdd: dma_timer_expiry: dma status == 0x61
Oct 22 16:46:56 server01 kernel: [16169.192000] hdd: DMA timeout error
Oct 22 16:46:56 server01 kernel: [16169.192000] hdd: dma timeout error: status=0x35 { DeviceFault SeekComplete CorrectedError Error }
Oct 22 16:46:56 server01 kernel: [16169.192000] hdd: dma timeout error: error=0x35 { DriveStatusError SectorIdNotFound AddrMarkNotFound }, LBAsect=8830590465333, high=526344, low=3487029, sector=488391871
Oct 22 16:46:56 server01 kernel: [16169.192000] ide: failed opcode was: unknown
Oct 22 16:46:56 server01 kernel: [16169.192000] hdc: DMA disabled
Oct 22 16:46:56 server01 kernel: [16169.192000] hdd: DMA disabled
Oct 22 16:46:56 server01 kernel: [16169.240000] ide1: reset: master: error (0x50?)
Oct 22 16:46:56 server01 kernel: [16169.240000] hdd: status error: status=0x50 { DriveReady SeekComplete }
Oct 22 16:46:56 server01 kernel: [16169.240000] ide: failed opcode was: unknown
Oct 22 16:46:56 server01 kernel: [16169.240000] hdd: status error: status=0x50 { DriveReady SeekComplete }
Oct 22 16:46:56 server01 kernel: [16169.240000] ide: failed opcode was: unknown
Oct 22 16:47:26 server01 kernel: [16199.240000] hdd: lost interrupt
Oct 22 16:47:26 server01 kernel: [16199.240000] hdd: status error: status=0x50 { DriveReady SeekComplete }
Oct 22 16:47:26 server01 kernel: [16199.240000] ide: failed opcode was: unknown
Oct 22 16:47:26 server01 kernel: [16199.240000] hdd: status error: status=0x50 { DriveReady SeekComplete }
Oct 22 16:47:26 server01 kernel: [16199.240000] ide: failed opcode was: unknown
Oct 22 16:47:26 server01 kernel: [16199.288000] ide1: reset: master: error (0x50?)
Oct 22 16:47:26 server01 kernel: [16199.288000] end_request: I/O error, dev hdd, sector 488391871
Oct 22 16:47:26 server01 kernel: [16199.288000] md: super_written gets error=-5, uptodate=0
Oct 22 16:47:26 server01 kernel: [16199.320000] RAID5 conf printout:
Oct 22 16:47:26 server01 kernel: [16199.320000] --- rd:4 wd:2
Oct 22 16:47:26 server01 kernel: [16199.320000] disk 0, o:0, dev:hdc1
Oct 22 16:47:26 server01 kernel: [16199.320000] disk 1, o:1, dev:hdb1
Oct 22 16:47:26 server01 kernel: [16199.320000] disk 2, o:0, dev:hdd1
Oct 22 16:47:26 server01 kernel: [16199.320000] disk 3, o:1, dev:hda1
Oct 22 16:47:26 server01 kernel: [16199.320000] lost page write due to I/O error on dm-0
Oct 22 16:47:26 server01 last message repeated 9 times
Oct 22 16:47:26 server01 kernel: [16199.336000] RAID5 conf printout:
Oct 22 16:47:26 server01 kernel: [16199.336000] --- rd:4 wd:2
Oct 22 16:47:26 server01 kernel: [16199.336000] disk 1, o:1, dev:hdb1
Oct 22 16:47:26 server01 kernel: [16199.336000] disk 2, o:0, dev:hdd1
Oct 22 16:47:26 server01 kernel: [16199.336000] disk 3, o:1, dev:hda1
Oct 22 16:47:26 server01 kernel: [16199.336000] RAID5 conf printout:
Oct 22 16:47:26 server01 kernel: [16199.336000] --- rd:4 wd:2
Oct 22 16:47:26 server01 kernel: [16199.336000] disk 1, o:1, dev:hdb1
Oct 22 16:47:26 server01 kernel: [16199.336000] disk 2, o:0, dev:hdd1
Oct 22 16:47:26 server01 kernel: [16199.336000] disk 3, o:1, dev:hda1
Oct 22 16:47:26 server01 kernel: [16199.348000] RAID5 conf printout:
Oct 22 16:47:26 server01 kernel: [16199.348000] --- rd:4 wd:2
Oct 22 16:47:26 server01 kernel: [16199.348000] disk 1, o:1, dev:hdb1
Oct 22 16:47:26 server01 kernel: [16199.348000] disk 3, o:1, dev:hda1
Oct 22 16:49:15 server01 kernel: [16308.228000] ReiserFS: dm-0: warning: zam-7001: io error in reiserfs_find_entry
Oct 22 16:49:15 server01 last message repeated 2 times
Oct 22 16:49:17 server01 kernel: [16309.844000] ReiserFS: dm-0: warning: zam-7001: io error in reiserfs_find_entry
Oct 22 16:49:17 server01 last message repeated 2 times

SCHRIK!!!

Nu probeer ik de array te starten in forced mode, maar ook dit lukt niet meer.. Hij heeft hdd1 helemaal uit het array verwijderd (kicking non-fresh hdd1 from array!). Vervolgens geprobeerd het array op te starten zonder hdd, maar nog niks:

root@server01:/var/log# mdadm -A /dev/md0 /dev/hdc1 /dev/hdb1 /dev/hda1
mdadm: no recogniseable superblock on /dev/hdc1
mdadm: /dev/hdc1 has no superblock - assembly aborted

Ik durf niet zoveel meer te doen, ik hoop dat er ergens een raid guru rondloopt die me weer aan mijn data kan helpen........

maandag 22 oktober 2007 18:38

Acties:

Verwijderd

Topicstarter

Okee... Na enig zoek en speurwerk ben ik van plan mijn raid5 config te gaan updaten...:

mdadm --create --verbose /dev/md5 --level=5 --chunk=64 --raid-devices=4 /dev/hdc1 /dev/hdb1 /dev/hdd1 /dev/hda1 --asume-clean

Zo zou ik in ieder geval de superblocks e.d. weer terug moeten krijgen.. Dan is het vervolgens maar hopen dat de array consistent is... Is dit een goed plan?

maandag 22 oktober 2007 18:54

Acties:

Verwijderd

Topicstarter

Hmmm... GELUKKIG!!! Na een reboot van het systeem kwam de array weer goed op.. Geen idee waarom nu wel en vanuit de shell niet, geeft ook niet.. Ik vermoed dat de oplossing lag in een forced re-assemble van de array. Hij is nu vrolijk aan het re-builden en ik ben de foto's waarvan ik nog geen backup had snel naar een 2tal andere disks aan het copieren..

Wijze les: Gebruik voor iedere disk een separaat IDE channel... Dit ga ik dus maar ff met hoogste spoed doen, nadat de array is gesynced...

Edit: Sorry dat ik van deze thread een beetje een monoloog heb gemaakt, maar ik schrok me vanmiddag echt helemaal een hoedje...

[ Voor 11% gewijzigd door Verwijderd op 22-10-2007 18:55 ]

maandag 22 oktober 2007 21:59

Acties:

MisterE

ik zou als ik jou was toch ff controleren of die schijf nog wel goed is. Heb je de smartmontools al geinstalleerd?

dinsdag 23 oktober 2007 15:02

Acties:

Verwijderd

Topicstarter

MisterE schreef op maandag 22 oktober 2007 @ 21:59:
ik zou als ik jou was toch ff controleren of die schijf nog wel goed is. Heb je de smartmontools al geinstalleerd?

Ja, ik heb na de crash voordat ik met mdadm bezig ging eerst de disks gecontroleerd met een short smart selftest.. Zodra ik alles op een eigen IDE kabel heb, zal ik de lange test voor de zekerheid nog ff draaien.. Thanx voor het meedenken!

Reageer