[RAID5] Degraded, nieuwe disk plaatsen in lege bay?

Pagina: 1
Acties:

  • Urk
  • Registratie: Maart 2000
  • Laatst online: 09-01 02:46
Mijn RAID5 array met 3 SAS disken is vannacht degraded geraakt doordat 1 disk is gefailed :'( .
Het is een wat oudere zelfbouw server met SuperMicro moederboard met onboard (daughter card) Adaptec RAID controller. De Adaptec Storage manager software gaf netjes alarm maar is niet heel duidelijk welke disk er defect is (hij geeft wel poort 0 aan, en dat lijkt te kloppen maar just to be sure), ook brand het groene lampje nog op alle 3 de disken.

De disken die er nu in zitten zijn niet meer te krijgen (Maxtor Atlas 15K2, 36GB) en dus wil ik een Fujits 146GB 15K SAS disk plaatsen, daar heb ik er nog 2 gebruikte van liggen. Dat moet geen probleem zijn volgens mij.

Wel de vraag: kan ik deze disk plaatsen in een ongebruikte bay, dus naast de kapotte disk zonder deze er dus nog uit te halen? Zal de array deze nieuwe disk in het ongebruikte slot dan gebruiken in de RAID5 array?

Verwijderd

Dat hangt af van de software/management maar meestal kan dit zonder problemen, mits de poort/bay op dezelfde controller is aangesloten.

Overigens raad ik sterk aan om het vervangen van een failed drive te simuleren voordat je de array echt in gebruik neemt. Nu moet je dit voor het eerst doen en een foutje hierbij kan je je data kosten.

Weet je verder zeker dat die schijf echt gefaald is, of dat het om een bad sector of kabelissue gaat?

  • Urk
  • Registratie: Maart 2000
  • Laatst online: 09-01 02:46
Verwijderd schreef op maandag 13 juli 2015 @ 14:22:
Dat hangt af van de software/management maar meestal kan dit zonder problemen, mits de poort/bay op dezelfde controller is aangesloten.

Overigens raad ik sterk aan om het vervangen van een failed drive te simuleren voordat je de array echt in gebruik neemt. Nu moet je dit voor het eerst doen en een foutje hierbij kan je je data kosten.

Weet je verder zeker dat die schijf echt gefaald is, of dat het om een bad sector of kabelissue gaat?
Dank voor je snelle reactie CiPHER _/-\o_
Ja, de poort zit op dezelfde controller, er is maar 1 controller dus dat moet geen probleem zijn.
En, nee ik weet het nog niet 100% zeker, zou best kunnen zijn dat als ik de connector schoon blaas hij het gewoon weer doet, maar om dat te weten/testen moet ik de disk er toch echt uithalen en daar gaat m'n hart altijd toch effe sneller van kloppen :/

Wat bedoel je precies met: "Overigens raad ik sterk aan om het vervangen van een failed drive te simuleren voordat je de array echt in gebruik neemt"?
Het is een productie machine en dus is de array al jaren in gebruik.

Verwijderd

Voordat je een productiemachine in gebruik neemt, dien je deze goed te testen. Het simuleren van een disk failure (kabeltje eruit trekken) en hoe je dit dient te vervangen is daarbij een belangrijk onderdeel. Dan hoef je dit niet voor het eerst te doen op het moment dat je data risico loopt.

Verder neem ik aan dat je geen 1:1 backups hebt; zeker voor dit soort kleine schijven is dat zeker aan te raden. Het past mogelijk zelfs op een USB stick, dus 1:1 backups zijn heel gemakkelijk uit te voeren lijkt me. En bij een goed onderhouden backup hoeft je hart natuurlijk niet sneller te kloppen bij handelingen als deze.

  • Urk
  • Registratie: Maart 2000
  • Laatst online: 09-01 02:46
Verwijderd schreef op maandag 13 juli 2015 @ 14:36:
Voordat je een productiemachine in gebruik neemt, dien je deze goed te testen. Het simuleren van een disk failure (kabeltje eruit trekken) en hoe je dit dient te vervangen is daarbij een belangrijk onderdeel. Dan hoef je dit niet voor het eerst te doen op het moment dat je data risico loopt.
Ah, ik snap nu wat je bedoeld, deze server wordt binnenkort ook vervangen door een degelijke Dell PowerEdge R710/R720 server, maar hij moet het nu nog even uithouden en draait ook nog Win2k3, dus vervangen moet zowieso snel gebeuren. Ik wil het risico nu echter alleen minimaliseren.
De 3 disken in deze RAID5 array zijn alle 3 al een keer eerder gecrashed, nog in de garantie periode van de Maxtor disken (was toen 5 jaar), dus ik heb er wel ervaring mee maar dat is alweer een paar jaar geleden, ook kon ik me toen herinneren dat ik een blink led optie oid had, maar die lijkt nu te zijn verdwenen :'(
Verwijderd schreef op maandag 13 juli 2015 @ 14:36:
Verder neem ik aan dat je geen 1:1 backups hebt; zeker voor dit soort kleine schijven is dat zeker aan te raden. Het past mogelijk zelfs op een USB stick, dus 1:1 backups zijn heel gemakkelijk uit te voeren lijkt me. En bij een goed onderhouden backup hoeft je hart natuurlijk niet sneller te kloppen bij handelingen als deze.
Ja, ik heb wel een goede (vrijwel 1:1) backups op tapes met Symantec Backup EXEC maar toch, denk dat restoren hiervan ook niet 1-2-3 zal verlopen, zeker niet het OS. Dit heb ik ook nooit getest, i know, niet ideaal maar in de nieuwe situatie ga ik toch alles virtualiseren dus dan wordt eea al een stuk makkerlijker :)

Jij zegt dus nu eigenlijk: toch eerst de disk eruit halen en even schoon blazen en terug plaatsen om te kijken of hij het doet? Of toch maar gelijk die Fujitsu SAS disk plaatsen?

Verwijderd

Als het mijn systeem zou zijn, zou ik die ene disk eerst willen testen qua SMART wat het aangeeft. Als het om een kabelfout of een enkele bad sector gaat, betekent dit dat vrijwel alle data nog goed is.

Uiteraard kun je gewoon een nieuwe disk aansluiten en die gebruiken om je 'gefaalde' disk te vervangen. Maar dan vertrouw je wel 100% op de pariteit. Dat is wel een gok, want er zijn veel mogelijkheden voor de pariteit om niet consistent te zijn met de data (RAID5 write hole).

Zou je gefaalde schijf helemaal niet gefaald zijn maar goede data bevatten, dan kan het beter/veiliger zijn om deze gewoon terug te plaatsen en gebruiken voor de rebuild/resync. Maar voorwaarde is natuurlijk dat deze niet gefaald is, maar gewoon een klein probleempje heeft. Somige RAID controllers zijn enorm streng (lees: slecht ontworpen) en schoppen disks uit de array die ook maar eventjes niet doen wat de RAID controller wilt. Dan is het natuurlijk wachten tot gezonde disks uit de array geschopt worden. Want een bad sector of kabelfout ligt altijd op de loer.

De schijf kun je eventueel in een andere computer uitlezen. Wel is heel belangrijk dat je er niet naar schrijft. Klik vooral niet op 'schijf initialiseren' als je de schijf op een Windows machine aansluit. Sowieso zou ik Windows nooit vertrouwen want die komt met zijn kleffe handjes overal aan. Een UNIX machine die niets doet met de schijf is veel veiliger. Kun je rustig de SMART uitlezen, wat leestestjes doen met dd en daarna een besluit nemen.

Of je kiest ervoor om de schijf 'blind' te vervangen met een nieuwe schijf. Maar dan moet de pariteit wel in orde zijn, daar vertrouw je dan op.

  • Urk
  • Registratie: Maart 2000
  • Laatst online: 09-01 02:46
Verwijderd schreef op maandag 13 juli 2015 @ 15:05:
Uiteraard kun je gewoon een nieuwe disk aansluiten en die gebruiken om je 'gefaalde' disk te vervangen. Maar dan vertrouw je wel 100% op de pariteit. Dat is wel een gok, want er zijn veel mogelijkheden voor de pariteit om niet consistent te zijn met de data (RAID5 write hole).
Tnx, maar moet die zowieso nu niet helemaal correct zijn? De server draait immers prima op de 2 overgebleven schijven nu.

Verder neem ik aan dat het geen filesystem error is die je met chkdsk kan oplossen anders zou de schijf mijns inziens niet als failed aangegeven moeten zijn. Zoals het er nu naar uitziet wordt de defecte schijf helemaal niet meer gebruikt en is hij geen onderdeel van de R5 array meer.
Verwijderd schreef op maandag 13 juli 2015 @ 15:05:
Als het mijn systeem zou zijn, zou ik die ene disk eerst willen testen qua SMART wat het aangeeft. Als het om een kabelfout of een enkele bad sector gaat, betekent dit dat vrijwel alle data nog goed is.
Zelfs als dit klopt en de data goed is op die disk is de kans toch heel groot dat de array toch nog opnieuw gaat rebuilden na het terugplaatsen van de oude disk?

Verder nog 1 vraagje: die Fujitsu disk die ik wil plaatsen is denk ik niet leeg, weet ik niet zeker en kan ik nu ook niet makkelijk zien. Voor de RAID array maakt dat niet uit toch? Die overschrijft de disk zodra je hem plaatst of rebuild toch al?

Ik heb wel vanmiddag nog een Disk2VHD gedaan van de server met de 2 belangrijkste partities en die is nu inmiddels ge-upload naar een Hyper-V 2012 server, benieuwd of ik hem daar virtueel kan starten :|
Edit: Hij start! En dat had ik niet verwacht!

[ Voor 38% gewijzigd door Urk op 13-07-2015 16:26 ]


Verwijderd

Als je al hebt geschreven naar de degraded array, dan is de data op de afgekoppelde disk 'stale' - dus verouderd. Alleen moderne RAID-engines kunnen dan nog wat met de data; zoals geom_raid5 onder BSD. Maar in veel gevallen betekent dit dat de data op de disk niet meer bruikbaar is. Dat is jammer, want bij het rebuilden loop je wel een risico. Bovendien nu al omdat je niet 100% zeker weet of de pariteit in orde is. Hooguit als je zelf iets tegenkomt waarvan je corruptie vermoedt. Maar zoiets kan goed verborgen blijven voor langere tijd totdat je het stuk data wat is getroffen nodig hebt en blijkt dat het niet meer integer/intact/bruikbaar is.

Moderne opslag zoals ZFS kan ook de stale data gebruiken, en rebuilden met de oude disk nog aangesloten is dus veel veiliger. Sowieso zou je qua veiligheid enorme stappen nemen als je een migratie naar ZFS zou overwegen. Maar dat hangt af van jouw persoonlijke situatie en wensen.

Je disk hoeft inderdaad niet leeg te zijn als je deze wilt gebruiken om je 'gefaalde' disk te replacen; de RAID controller zal deze gewoon overschrijven. Enige uitzondering kan zijn als je die ene disk al eerder met dezelfde controller (of hetzelfde merk) hebt gebruikt. Dan zou er nog metadata op de laatste sector van de hardeschijf kunnen staan.

  • rookie no. 1
  • Registratie: Juni 2004
  • Laatst online: 07-01 17:11
Goed idee met dat Disk2VHD als backup c.q. conversie. Als je geen hardware beperkingen hebt op de Windows Server 2003 bare metal (bv. dongles), dan kun je mooi gelijk je oude hardware uitfaseren. Weg met die troep :)
Pagina: 1