[RAID5] 2x spontaan array rebuilden...oorzaak?

Pagina: 1
Acties:

  • TheManinBlack
  • Registratie: November 2001
  • Niet online
Een lekker probleem; ik heb Windows 2000 AS op een losse IDE schijf staan. In mijn systeem zit een Promise SuperTrak SX6000 waarop 6 Seagate ST3120023A (120 Gb) hdd's zijn aangesloten in RAID 5. Tijdens Windows setup heb ik er een partitie op gezet die de maximale grootte van de array beslaat, dus een enkele partitie van 558 Gb. Vannacht heb ik de 'schijf' onder Windows geformatteerd.

Nu was ik nog niet eens verder gegaan met het systeem, maar plotsteling begint die kaart enorm te piepen....alweer. Bezig met rebuilden van de array, probleem met schijf 4, volgens de PAM Utility. "Disk status: Warning (rebuilding)". Volgens de S.M.A.R.T. status is de schijf "functional". Gisteren flikte ie dit geintje dus ook al, ik weet alleen niet of het dezelfde schijf was. Ik heb geen idee wat er aan de hand is. Het lijkt me dat die schijf niet helemaal goed is, maar waarom gaat ie dan niet in critical mode, ipv de array rebuilden op een 'defecte' schijf? Ik snap er niks meer van.
Heeft iemand een idee waar dit aan zou kunnen liggen, of kent iemand dit probleem?

De schijven zitten overigens allemaal in een Mobile Rack, de Procase CRS 1004. Kabels zitten allemaal goed aangesloten, dat weet ik zeker. Voeding is een 550 Watt Enermax. Verder zit er een gigabit NIC in, een 16 mb TNT AGP kaartje en een Plextor 40x SCSI cd-rom. Verder een aantal no-name fans die in de kast zaten. Volgens mij kunnen er geen fluctuaties zitten in de stroom aanvoer, of dat de psu te weinig watt kan leveren ofzo.
Dit alles draait op een Asus P2B-DS met een 733mhz PIII. De Promise kaart heeft 128 mb ECC geheugen (Dane Elec). Op het mobo zit 768 mb SDRAM, zonder ECC, maar daar kan het niet aan liggen, me thinks.

Ziet iemand misschien een probleem met bepaalde combinaties?

  • GarBaGe
  • Registratie: December 1999
  • Laatst online: 12:29
Ik draai nu ongeveer een jaar een IDE RAID-5 op een 3Ware kaart. Een hele enkele keer moet ie het array rebuilden, wat kan komen door:

- computer te snel uitschakelen
- spanningsdipje in het lichtnet
- (bijna) defecte schijf

Als je het array nog kan benaderen TIJDENS de rebuild (maar dan tegen een enorme performance-penalty), dan zou ik voorlopig nog niets doen. Houd de schijf wel in de gaten...
Persoonlijk heb ik ondertussen geleerd om bij servers met RAID-5 (zoals ik ook heb) een "hot spare" te installeren...
In jouw geval zou je dan nog netto 4x120 GB over houden, maar zodra een schijf uitvalt, kan je controller direct de hot spare in gebruik nemen...
Wel zo'n veilig idee, bij een toch al niet al te goedkope IDE RAID-5 mega opslag...

Ryzen9 5900X; 16GB DDR4-3200 ; RTX-4080S ; 7TB SSD


Verwijderd

Tja, het spontaan failen van een HDD kan verschillende oorzaken hebben:
- slechte bekabeling (ook al ziet alles op het oog goed uit)
- oude firmware van HDD/controller
- een schijf die niet helemaal lekker is (heb je de mogelijkheid een log op te vragen, en staan daar sensekeys in?)
- Oudere drivers (heb je alles uptodate?).
- slechte cachegeheugen

Wat me een beetje zorgen baart (als ik je verhaal zo gelezen hebt), dan begint de schijf spontaan te rebuilden. Nou weet ik niet of dat normaal is bij je type raidcontroller.
Ik zou dan toch denken aan een onderbreking van spanning of signaal, want normaal gesproken zou een automatische rebuild moeten plaatsvinden nadat er een nieuwe schijf erin is geprikt (althans dat is bij de HP raidcontrollers zo).
Kan je eens een consistencycheck draaien, en daarna een log opvragen van je fysieke HDD's? Misschien worden er wel fouten gevonden.
Dat idee over de hotspare van GarbaGe is inderdaad een optie, maar dat zou ik alleen doen als er bedrijfskritieke data op staat. Want je moet je inderdaad realiseren dat je wel de inhoud van een HDD kwijt bent. Maar dat is een afweging die je zelf moet maken.

[ Voor 2% gewijzigd door Verwijderd op 12-01-2003 11:38 . Reden: aanvullinkje ]


  • TheManinBlack
  • Registratie: November 2001
  • Niet online
Thanks voor de hulp, de array is nog steeds aan het rebuilden. Dat gaat nog wel een paar uur duren. Gisteren deed ie er zo'n 8 a 9 uur over ofzo. De array is nog wel gewoon te benaderen onder Windows, er staat dan nog wel niks op, maar ik zie niks bijzonders verder.

Het zou inderdaad best wel eens een spanningsdipje/piekje geweest kunnen zijn in het lichtnet, de voeding zit niet in een geaard stopcontact (helaas niet beschikbaar hier). Waarschijnlijk zet ik er een UPS tussen. Dat was toch eigenlijk al de bedoeling.

Het hotspare idee heb ik bij het aanmaken van de array overwogen, ik heb dit niet gedaan omdat ik toch wel graag zoveel mogelijk ruimte wil benutten. Het vervelende is dat er maar 6 channels op zitten. Misschien koop ik binnenkort nog wel een losse schijf en leg ik die in de kast, voor het geval dat. De data die erop komt te staan is niet bedrijfskritiek, maar het zou erg vervelend zijn als het plotseling allemaal weg is.

Geen idee hoe ik de schijven kan testen btw, dit is ook maar de eerste keer dat ik met RAID werk. Die PAM Utility is wel ideaal overigens, hiermee kan je precies zien wat er gebeurt. Hier zitten helaas geen andere diagnostische functies op, behalve S.M.A.R.T. monitoring. Scandisk lijkt me niet echt in aanmerking te komen voor het testen van de hdd's, toch?

Nog iets wat ik vergeten was; toen ik gisteren bezig was met updaten van mijn server, via Windows Update, toen viel het me op dat de meeste (bijna alle, met enkele uitzonderingen) updates niet geinstalleerd konden worden. Ik heb het proces steeds maar herhaald, maar dit gebeurde echt vaak. Toen zag ik dat de WUtemp directory op de RAID schijf was aangemaakt. Dit begon dus een beetje raar te worden. Ik kopieerde een update handmatig van een netwerk PC naar de RAID array, en probeerde die te starten (IE6 SP1). Dit werkte niet (foutmelding over te weinig beschikbaar geheugen ofzo, echt iets vreemds). Toen kopieerde ik diezelfde bestanden van de RAID array naar een IDE schijf en ik startte de update opnieuw. Toen deed ie het dus wel.......weird. De data was dus niet corrupt ofzo, maar ik kon het niet installen vanaf de RAID array en wel vanaf de gewone IDE schijf.

edit:
Hier is het gedeelte in de logfile:

code:
1
2
3
4
5
na/na/na   na:na:na   Warning         Retry Drive     Retry drive access in Array Array1 (0x00000018) Drive SEAGATE ST3120023A (0x00000003 ch 4)
na/na/na   na:na:na   Warning         Read/Write Error Drive SEAGATE ST3120023A (0x00000003 ch 4) of Array Array1 (0x00000018) has Read Write Error ch4 LBA=80 cmd=30 Disk Status= 80.
na/na/na   na:na:na   Warning         Array Rebuild Begun Automatic rebuild begun by Engine on Drive SEAGATE ST3120023A (0x00000003 ch 4) of Array Array1 (0x00000018).
na/na/na   na:na:na   Error           Drive Fail      Drive SEAGATE ST3120023A (0x00000003 ch 4) failed.
na/na/na   na:na:na   Information     Drive Installation Drive SEAGATE ST3120023A (0x00000003 ch 4) was attached to SuperTrak.

Voor de goede orde, ik heb de drive niet toegevoegd, dit gebeurde spontaan.

offtopic:
Ik zie trouwens net dat ik met de PAM Utility ook de beeper uit kan zetten......eindelijk rust en geen klagende ouders meer ^_^ Jammergenoeg heb ik dus al eerder een nacht moeten slapen met die herriemaker in mijn kamer :-(

[ Voor 17% gewijzigd door TheManinBlack op 12-01-2003 17:06 . Reden: Logfile erbij ]


Verwijderd

Ik denk dat je die schijf op ch 4 even in de gaten moet gaan houden. je log file zegt dat hij een read/write error heeft ondergaan. dat is meestal het gevolg van een bad block op je platter.