Toon posts:

LSI 150-4 RAID5-array stuk na vervanging enkele disk?

Pagina: 1
Acties:

Verwijderd

Topicstarter
Een vrij simpel RAID5 arraytje van 4x250Gb (WD2500 Raid Edition) met een LSI Logic 150-4 SATA controller (hardware raid5). Systeem is WinXP SP2 en boot van dat array.

Ging 1 disk stuk, array braaf naar DEGRADED status automatisch.. tot zover alles prima.
Rebooten ging ook met het degraded array nog prima. Disk via WD geruild. Powerdown, disk verwisseld en toen kon 'ie niet meer booten.

Dat had al een waarschuwing moeten zijn, want in die status had 'ie gewoon als een normaal degraded array moeten booten (disk4 stond nog braaf op FAILED na vervanging, wat ook zoals verwacht was). Echter, ik heb toen besloten eerst het array maar te reparen met de nieuwe disk4, ofwel de disk4 rebuilden.

Achteraf gezien was dat waarschijnlijk niet zo slim.

Alle data op dat array lijkt door elkaar geroerd te zijn. Sommige recovery progjes konden nog wel wat vlagen terug vinden maar niks bruiksbaars. Uiteindelijk maar geaccepteerd dat de data niet te redden was en een nieuwe config ingericht met een losse 80Gb bootdisk en een RAID1 van die 4x250 disken (daar kan ik makkelijker zelf iets aan repareren als de controller het weer molt).

Lang verhaal... wat ik nou zo graag wil weten is WAT is er fout gegaan ??

Ik denk zelf dat het iets met kabel-plaatsing is geweest waardoor disken fouten nummers hebben gekregen. Echter, deze controler controleert daar op EN geeft een melding als disken verplaatst zijn. Hij lijkt ook goed te zien welke disk waar zit als je ze willekeurig omruilt (heb ik getest voor ik het ding als RAID1 weer ingebruik nam).

Ik kan echter geen andere oorzaak verzinnen waardoor een compleet array wat goed werkte kapot gaat bij vervanging van een enkele disk? Direct na de vervaninging en voordat er ook maar iets gerebuild of gedaan was, deze het array het al niet meer.

Ik dacht dat ik een vrij aardige controller had uitgezocht, LSI is een goed merk toch? Mijn vertrouwen er in is nogal gedaald. Het helpt ook niet echt dat LSI Support doodleuk zegt dat je backups moet maken en zo. Daar koop ik zo'n controller niet voor, grmbl.

Iemand enig idee wat er fout gegaan is ??

Uiteindelijk wil ik eigenlijk wel weer naar RAID5, meer ruimte en zo :-)

  • John2B
  • Registratie: Mei 2000
  • Laatst online: 16:45

John2B

I Love RAID5..!!

Kabels verwisselen is zeker geen probleem, controller leest de META DATA van disk af en ziet aan welke poort welke disk hangt.

Wat er nu exact fout ging kan ik uit je verhaal ook niet echt opmaken, waren alle vier de disken wel te zien in de BIOS nadat je een nieuwe disk had geplaatst?

En inderdaad heeft LSI gelijk, RAID is geen backup maar een beveiliging tegen uitval van een harddisk.

A friendship founded on business is better than a business founded on friendship


Verwijderd

Topicstarter
Wat er nu exact fout ging kan ik uit je verhaal ook niet echt opmaken, waren alle vier de disken wel te zien in de BIOS nadat je een nieuwe disk had geplaatst?
Ja, 3 disken ONLINE en 1 disk FAILED. Dat was precies zoals ik verwacht had. Echter in die toestand had ik nog prima moeten kunnen booten ook met de nieuwe disk4. Direct na het fysiek vervangen van disk4 is er iets fout gegaan, maar ja.. toen heb ik disk4 ge-rebuild wat vermoedelijk alle correcte data incorrect door elkaar goeide :(
En inderdaad heeft LSI gelijk, RAID is geen backup maar een beveiliging tegen uitval van een harddisk.
Klopt, alleen vind ik het zo'n goedkoop excuus als een kaart van 300 euro net je data gemolt heeft.

Mijn kaart kan het uitvallen van een disk in een raid5 prima aan, dat werkt wel. Als je echter die stukke disk vervangt gaat het spul alsnog stuk. Dan wordt je niet echt vrolijk als een support medewerker afschuift richting 'backup maken' en zo.

  • John2B
  • Registratie: Mei 2000
  • Laatst online: 16:45

John2B

I Love RAID5..!!

Zo als ik het lees heb je goed gehandeld; disk vervangen en laten rebuilden.

Dat de data door elkaar lijkt te worden gegooid is erg vreemd. Misschien kun je stap voor stap uitleggen wat je gedaan hebt in BIOS om je disk te rebuilden en welke opties je precies hebt gekozen.

A friendship founded on business is better than a business founded on friendship


Verwijderd

Topicstarter
John2B schreef op vrijdag 03 februari 2006 @ 16:40:
Zo als ik het lees heb je goed gehandeld; disk vervangen en laten rebuilden.

Dat de data door elkaar lijkt te worden gegooid is erg vreemd. Misschien kun je stap voor stap uitleggen wat je gedaan hebt in BIOS om je disk te rebuilden en welke opties je precies hebt gekozen.
Voor de goede orde; het array was al in de war direct nadat ik alleen maar de disk had vervangen.

Toen heb ik alsnog disk4 gerebuild, via BIOS: Objects->Physical Drives, Disk4 kies Rebuild in menu. Meer heb ik niet gedaan (je wilt natuurlijk ook niks wijzigen aan een Degraded array, veel te link). Dat duurde een paar uur en toen stonden alle disken weer braaf ONLINE en vond het Array dat alles consistent was. Echter op logisch NTFS nivo was het een grote puinhoop.

Ik kon met recovery tooltjes wel partitietabellen vinden, met soms zelfs de goede partitie naam en groote. Tevens waren er her en der nog filenamen/MFTs te vinden. Ik denk dat die puinhoop ontstaan is door de rebuild, daarvoor had het systeem domweg te weinig tijd (30 seconden voor boot tot 'Invalid Systemdisk' melding) om zoveel data te mollen.

Ik had eigenlijk nadat ik de data voor verloren had verklaart nog een test willen doen met vervangen van een disk in een Raid5. Echter de oude disk4 was tegen die tijd echt fysiek stuk en kon daar dus niet voor gebruikt worden.

LSI Support denkt dat mogenlijk het Degraded 3-disk array niet helemaal consistent was, maar dan snap ik nog steeds niet waarom na alleen een hardware replace van disk4 het systeem niet starte. Want na zo'n replace is het array voor de controller nog precies hetzelfde; 3 disken in array en 1 failed disk. Ik was ook eerst van plan domweg naar Window te booten en vanaf daar disk4 te rebuilden, dat is toch het idee van Raid5.. voorkomen downtime :-). Tevens hadden ze het over een hotspare erbij zetten. Dat wordt echter lastig bij een controller met 4 Sata poorten :-)

Misschien nog interessant om te weten dat de defecte disk4 al een keer of 3 uit het array gegooid was wegens time-out problemen, daarom is het ding uiteindelijk ook vervangen. Iedere keer dat zoiets gebeurde heb ik de disk4 gerebuild (en dus NIET 'force online' gebruikt).

Ik doe op werk ook vrij veel met storage en daar hebben we veel in Raid5 en dat gaat altijd goed. Maar ja, die diskcabinetten (EMC en zo) zijn ook iets duurder, misschien is daar dan toch een reden voor. Mijn 'love' voor Raid5 is voor pc's toch wat gedaald door dit voorval. Als een Raid5 echt stuk gaat vind je qua data ook echt niks terug. (daarom heb ik nu alles in Raid1 staan)

[ Voor 5% gewijzigd door Verwijderd op 03-02-2006 19:44 ]


  • John2B
  • Registratie: Mei 2000
  • Laatst online: 16:45

John2B

I Love RAID5..!!

Tevens hadden ze het over een hotspare erbij zetten. Dat wordt echter lastig bij een controller met 4 Sata poorten :-)
Ik denk dat zij hier bedoelen dat als je boot op een degraded array er onder Windows een disk aan toevoegt zijnde een hot spare. De controller ziet een hotspare en gaat dan rebuilden.

Overigens meld je dat disk4 er al een paar keer uit de array is gegooid wegens time-out problemen wat dus:

- Of duidt op een disk probleem (had je dus eigelijk al preventief moeten vervangen, maar goed achteraf is makelijk praten)

- Of, de controller heeft een probleem op die specifieke port, overigens is dat een bekent manko van deze controller en is afhankelijk van het serie/typenummer. Controller dat eens:

nummer zier er zo uit: 5234000264E

p.s. ik zie dat je de controller bij WebConneXXion hebt gekocht
.

[ Voor 12% gewijzigd door John2B op 03-02-2006 20:35 ]

A friendship founded on business is better than a business founded on friendship


Verwijderd

Topicstarter
John2B schreef op vrijdag 03 februari 2006 @ 19:59:
Ik denk dat zij hier bedoelen dat als je boot op een degraded array er onder Windows een disk aan toevoegt zijnde een hot spare. De controller ziet een hotspare en gaat dan rebuilden.
Weet ik, alleen als ik al 4 disken voor een Raid5 set nodig heb dan past er domweg geen 5e disk bij op een 4-poorts controller :) Afgezien daarvan zal een stukke disk toch een keer vervangen moeten worden, dus een hotspare verplaatst het probleem alleen maar (volgens mij).
Overigens meld je dat disk4 er al een paar keer uit de array is gegooid wegens time-out problemen wat dus:

- Of duidt op een disk probleem (had je dus eigelijk al preventief moeten vervangen, maar goed achteraf is makelijk praten)
Twee weken voor dat 'ie echt dood ging gaf die disk het eerste probleem. Eerste keer dacht ik dat het misschien eenmalig probleem was, gerebuild en draaide weer prima. Na 2/3e keer vrij dicht bij elkaar een ticket naar WD-Support gestuurt en RMA procedure gestart. Een dag voor ik de vervangende schijf binnen had ging disk4 echt helemaal stuk en spinde niet meer op.
- Of, de controller heeft een probleem op die specifieke port, overigens is dat een bekent manko van deze controller en is afhankelijk van het serie/typenummer. Controller dat eens:

nummer zier er zo uit: 5234000264E
Oh? De sticker achterop mijn controller zegt: "SN: P034730105" dat ziet er heel anders uit??
p.s. ik zie dat je de controller bij WebConneXXion hebt gekocht
Oh?? Kan zijn dat ik dat een keer heb ingevuld op Shop beoordeling of werk je daar toevallig?

P.S. Ongerelateerde info; PatrolRead op deze controller werkt niet, bugje in de BIOS. En nee je mag niet raden waarom ik dat actief wil hebben ;-)

  • DJ Buzzz
  • Registratie: December 2000
  • Laatst online: 21:40
Verwijderd schreef op zaterdag 04 februari 2006 @ 12:25:
Weet ik, alleen als ik al 4 disken voor een Raid5 set nodig heb dan past er domweg geen 5e disk bij op een 4-poorts controller :) Afgezien daarvan zal een stukke disk toch een keer vervangen moeten worden, dus een hotspare verplaatst het probleem alleen maar (volgens mij).
Wat hier bedoeld wordt is dat je de nieuwe schijf die je als vervanging erin stopt als hot spare markeert, waardoor de controller zelf ziet 'he ik heb een degraded array en een hot-spare dus laat ik maar gaan rebuilden'.

Verwijderd

Topicstarter
djbuzzz schreef op zaterdag 04 februari 2006 @ 13:08:
Wat hier bedoeld wordt is dat je de nieuwe schijf die je als vervanging erin stopt als hot spare markeert, waardoor de controller zelf ziet 'he ik heb een degraded array en een hot-spare dus laat ik maar gaan rebuilden'.
Oh. Maar daar heb je op een LSI MegaRaid geen hotspare-truuk voor nodig. Dan zet je gewoon auto-rebuild aan en dan doet dat inderdaad. Die heb uit gelaten, ik zie liever dat 'ie stuk is.

LSI Support had het wel over een echte vijfde disk. Voordeel van zoiets is dat je bij een stukke disk snel weer een volledig correct Raid array zou moeten hebben. Maar of dat mijn probleem had voorkomen wens ik te betwijfelen.

  • John2B
  • Registratie: Mei 2000
  • Laatst online: 16:45

John2B

I Love RAID5..!!

Oh? De sticker achterop mijn controller zegt: "SN: P034730105" dat ziet er heel anders uit??
Er zitten volgens mij drie witte stickertjes op, het nummer eindigt op een letter.

Voorbeeld: 5234000264E

A friendship founded on business is better than a business founded on friendship


Verwijderd

Topicstarter
John2B schreef op zaterdag 04 februari 2006 @ 20:20:
[...]

Er zitten volgens mij drie witte stickertjes op, het nummer eindigt op een letter.

Voorbeeld: 5234000264E
Oh, dan zal de kaart er toch uit moeten vrees ik...in de kast ik er maar eentje. Zodra ik genoeg moed verzameld heb zal ik daar eens naar kijken... ik denk dat ik alle kabels er maar aan laat, heh :)

Verwijderd

Topicstarter
Ok, heeft even geduurd en waren wat veel nummers;

Achter op: SN: P034730105

Voorop midden: 5234000264E
Voorop rechtsonder: RX 1070132

Zo te zien wilde jij de middelste van dat drietal weten ?? Is dat een modelnr. of zo??

P.S. Raar dat nummer is gelijk aan jouw voorbeeld?

[ Voor 11% gewijzigd door Verwijderd op 15-02-2006 23:41 ]


  • John2B
  • Registratie: Mei 2000
  • Laatst online: 16:45

John2B

I Love RAID5..!!

Inderdaad een produktienummer, indien de letter lager zou zijn dan E is, kan je ervan uitgaan dat een van de poorten door een produktiefout verhoogt risico tot een probleem geeft, dit is dus nu niet het geval. Althans niet direkt op het nummer (letter) terug te voeren.

Heeft LSI Niets gezegd over RMA van de kaart? als dat zo is krijg je een SR# t.b.v. een RMA.

Hou de controller goed in de gaten, als het nog eens gebeurt gaan we gewoon voor een RMA dit moet natuurlijk niet mogen.

[ Voor 16% gewijzigd door John2B op 16-02-2006 19:50 ]

A friendship founded on business is better than a business founded on friendship

Pagina: 1