RAID 10 Intel x79 kapot na een gefaalde BIOS update

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • Dykam
  • Registratie: Juli 2007
  • Laatst online: 15-08 19:01
Relevante specs:
  • 4 * Seagate Barracuda ST3000DM001 in RAID 10
  • Asus Rampage Extreme IV met Intel en ASMedia controllers, en een Intel RAID controller.
  • Windows 7 x64
Omdat de RAID setup wat performance merkwaardigheden had, en dan eigenlijk alleen dat het hele systeem tot een minuut lang bevroor bij zware kleine IO acties, besloot ik de BIOS te updaten. De eerste fase ging prima, en de 2e leek ook goed te gaan, echter kreeg ik de melding dat de instellingen corrupt waren en dat die gereset werden. Hierna werden beiden partities op de RAID array weergegeven als corrupt en Windows vroeg of ik het wilde formatteren. Nadere inspectie in het BIOS toonde aan dat de controller in AHCI ipv. RAID stond. Na dat terug gezet te hebben, werd ik gepresenteerd met het volgende:
Afbeeldingslocatie: http://i.imgur.com/BmM7wl.jpg
2 van de schijven zaten niet langer in de RAID array. Binnen het BIOS vond ik ook geen mogelijkheid om het te repareren. De gedachte kwam op om de RAID te recreëren met dezelfde instellingen, maar ik wilde de gok niet wagen.

Nadere inspectie met Intel RTS enterprise (Imgur) toont dat de 2 verwijzingen naar de missende schijven niet anders van een foute poort en een ":0" achter de naam hebben, van de huidige schijven.


De gegevens staan zeer zeker nog op de schrijven. Ik heb echter geen lege HDD's liggen om een reparatie te starten, en ik ben niet helemaal zeker dat de 2 beschikbare schijven mirrors zijn of striped. Ik ben zojuist op de volgende post gewezen, maar ben nog wat huiverachtig om het te proberen.

Acties:
  • 0 Henk 'm!

Verwijderd

Heb je je schijven getest op bad sectors via de SMART output? Probeer even niets met de schijven te doen en vooral niet aan Windows te tonen! Schrijven naar je schijven is uit den boze.

Boot even met Ubuntu Linux livecd en start de disk utility. Controleer al je schijven op Current Pending Sector. De raw value hiervan moet 0 zijn (de current/worst/threshold kun je vergeten). Als deze niet 0 is, is dit waarschijnlijk de oorzaak van je 'bevroren' desktop en tevens de oorzaak dat er nu schijven als non-RAID worden herkend.

Post hier screenshots van je SMART data indien mogelijk. Je kunt in Ubuntu screenshots maken met de printscreen knop en deze via firefox uploaden naar een gratis imagehost of Tweakers.net fotoalbum als je dat hebt, en deze hier posten.

Acties:
  • 0 Henk 'm!

  • Dykam
  • Registratie: Juli 2007
  • Laatst online: 15-08 19:01
Dat lijken me 2 losse dingen, het non-RAID probleem kwam precies na de BIOS crash, welke door een foute BIOS update kwam, losstaande van de harde schrijven. De symptonen zijn praktisch hetzelfde beschreven in de laatste link. Het bevriezen was al vanaf dag 1, met 4 verse schijven. Het gebeurt vooral/alleen als de IO bestaat uit het vaak ophalen van bestandslijsten, bijv. veel (1m+) kleine bestandjes inpakken.

Overigens werkt de RAID sowieso al niet onder linux, ik heb geen werkende drivers gevonden. Er wordt wel iets herkend, maar over het algemeen ziet Ubuntu (voor het RAID probleem) de 4 schijven, 1 SSD en een RAID schijf.

De screenshots in de 2e link zijn genomen vanuit Windows, aangezien dat het huidige OS is (staat op de SSD) en Intel's RAID managment tool alleen hiervoor is. In ieder geval, wanneer gedownload via Asus' site.

Acties:
  • 0 Henk 'm!

Verwijderd

Je metasectors zijn nu dan inderdaad weg, dus dat gaat makkelijke recovery onmogelijk maken. Maar je kunt met handmatige recovery alle combinaties uitproberen en je data gewoon terugkrijgen. Onder BSD is dat nog net iets makkelijker, ik kan je er wel bij assisteren als je wilt.

Maar post eerst de SMART data maar eens. En dat Linux gewoon 4 schijven ziet is logisch; dat is wat de hardware is; enkel Windows drivers maken van die 4 schijven een enkele virtuele schijf; onboard RAID is geen hardware RAID!

Acties:
  • 0 Henk 'm!

  • Dykam
  • Registratie: Juli 2007
  • Laatst online: 15-08 19:01
Onder handmatige recovery, versta je het hercreëren van RAID arrays via de RAID bios tot er 1 werkt? Ik ben vrij zeker wat de originele instellingen waren, dus het zou in 1 keer moeten kunnen.

Alle vier de schijven rapporteren als healthy, en de Current Pending Sector is 0. Wat ik ook heb gevonden:
De 2 schijven die Intel RTS herkend worden worden bij de Disk utility beiden aangegeven als een RAID volume.
De 2 schijven die niet herkend worden beiden aangegeven als (clicky):
Afbeeldingslocatie: http://i.imgur.com/p9aeEl.png

Complete SMART report van 1 van de 2 niet herkende schijven:
Afbeeldingslocatie: http://i.imgur.com/o0bXZm.pngAfbeeldingslocatie: http://i.imgur.com/oQ94Um.png

Acties:
  • 0 Henk 'm!

  • Dykam
  • Registratie: Juli 2007
  • Laatst online: 15-08 19:01
Doublepost voor de duidelijkheid.

Het probleem is opgelost, na overleg met iemand anders de guide in de laatste link gevolgd, en dat werkte vlekkeloos. Of het probleem weg is dat bij zware IO het systeem bevriest is nog niet duidelijk. Merkte dat dat overigens ook soms gebeurde met een CD. Eerst even aanzien of de BIOS update het verholpen heeft.

Acties:
  • 0 Henk 'm!

Verwijderd

Je hebt voor de gevaarlijke route gekozen, door zoals in de guide beschreven advies te volgen:
Create a new array with identical settings as the broken array.
Dit is uiterst gevaarlijk omdat je:
1) je oude metadata overschrijft en dus vernietigt; op zijn minst zou je die moeten backuppen voordat je dit probeert
2) bij verkeerde offset, disk order, stripesize of RAID level de RAID volume die wordt gepresenteerd corrupt is, omdat deze niet overeenkomt met hoe de originele data is opgeslagen. Dit ervaart de schrijver van de guide ook, alleen in zijn geval niet fataal omdat hij RAID0 draait.

Echter, zou je een redundante level draaien, dan zou de rebuild die direct start bij het inschakelen van de Windows drivers, ervoor kunnen zorgen dat je definitief gezonde data overschrijft. Zou hij hetzelfde met een RAID5 hebben gedaan en de verkeerde disk order hebben, dan is het dus gelijk einde verhaal.

Naar mijn mening heb je dus wel een onnodig risico genomen. Omdat je kennelijk geen backup had was de data misschien niet belangrijk genoeg en wilde je snel wat proberen, maar ik hoop andere mensen op het gevaar te wijzen zouden ze deze thread via Google vinden.

Wel fijn dat jouw probleem weg is! Voor mensen die Intel RAID0 of JBOD gebruiken valt het risico dus mee.

Acties:
  • 0 Henk 'm!

  • Dykam
  • Registratie: Juli 2007
  • Laatst online: 15-08 19:01
Het was RAID10 overigens, maar ik had de drive nog niet lang genoeg dat het essentieel zou zijn.

Overigens, start de rebuild wel bij het starten? Ik ben er vrij zeker van dat je dat expliciet met Intels tools moet doen. En de offset, disk order en stripesize waren identiek als de vorige keer, vooral omdat de offset niet aan te geven was en de andere 2 je weinig vrijheid had. In ieder geval vanuit de RAID bios.

En voor de volgende keer, hoe precies backup je de metadata?

[ Voor 7% gewijzigd door Dykam op 15-10-2012 22:23 ]

Pagina: 1