Areca 1260: wanneer zijn failed disks failed disks - Opslag en back-up

donderdag 5 februari 2015 12:25

Acties:

Topicstarter

Na een stroomstoring staan 4 van mijn 11 disks in een RAID6 op Failed. Uiteraard zijn dat er te veel. Het array zelf is na het rebooten ook verdwenen; de Areca ziet enkel nog disks als Free en Failed.

Ik zoek me al 1,5 dag rot naar een uitleg hoe een Areca 1260 RAID controller bepaalt of een disk Failed is of niet. Volgens de support van Areca houdt de controller geen statussen bij van het array of van de disks, en bepaald hij tijdens het opstarten/initialiseren van de disk of deze 'goed' is:

controller do not record array configuration or hard drive information inside.
so if you can connect all array members without data corruption, you will not lost the array or data inside.

and as previous reply, controller do not record failed drive list. you can take any reaction to recover these failed members back. recover these data in failed drives are the only possibility to recover the array.

Maar op basis waarvan dat gebeurt is mij niet duidelijk en dat krijg ik ook niet echt duidelijk. Areca geeft zelf aan dat als ik de Failed disks terug kan krijgen, ik het array ook terugkrijg. Maar goed, dat lijkt me logisch

De handleiding rept nergens over dit soort problemen, behalve dat Failed disks vervangen moeten worden.

Nu kan het natuurlijk dat alle 4 de disks tegelijk zijn overleden. Maar het lijkt me logischer dat ze out-of-sync zijn. Ik heb een aantal reserve schijven liggen en mijn eerste idee was om de 4 failed schijven op bit niveau te clonen naar 4 nieuwe disks. Echter, als de disk niet kapot is, maar de data die er op staat corrupt, schiet ik hier weinig mee op. Dan krijg ik een corrupte kopie van een werkende schijf.

Ik heb backups van 99% van die disks, maar dat zijn data-backups die momenteel op een aparte omgeving teruggezet worden. Het zou me veel tijd schelen als ik het RAID array in ieder geval tijdelijk terug zou krijgen, om die laatste 1% te kunnen nalopen.

Ik heb gelezen over de RESCUE en eventueel LeVeL2ReScUe commando's, maar het lijkt me sterk dat die een schijf die als Failed gezien wordt opeens weer opnemen in het array. Dat wordt pas interessant als het me lukt om genoeg schijven terug te krijgen.

Heeft iemand toevallig ervaring met deze controller en nog een geniale tip?

[ Voor 10% gewijzigd door eborn op 05-02-2015 12:26 ]

donderdag 5 februari 2015 13:22

Acties:

Verwijderd

De controller bepaald de FAILED status aan de hand van de SMART status, lees je SMART eens uit van de defecte schijven

donderdag 5 februari 2015 13:26

Acties:

garriej

Ik las ondertieten.

Stroom storingen doen soms gekke dingen met disks die al een lange tijd draaien. Maar kijk in de SMART wat hierboven ook al staat.

offtopic:
Waar was je UPS? Ik neem aan dat dit niet een huis tuin en keuken situatie is.

[ Voor 31% gewijzigd door garriej op 05-02-2015 13:27 ]

donderdag 5 februari 2015 13:38

Acties:

eborn

Topicstarter

garriej schreef op donderdag 05 februari 2015 @ 13:26:

offtopic:
Waar was je UPS? Ik neem aan dat dit niet een huis tuin en keuken situatie is.

Dood... ik was zelf niet op kantoor en mijn collega's waren te laat om de SAN uit te schakelen en helaas krijgt hij geen seintje als de stroom weg is, zodat hij zichzelf kan afsluiten. Uiteraard is dit van alle RAID arrays die er hangen de enige die problemen geeft

De andere 6 arrays hebben dezelfde 'klap' gehad, maar kwamen weer netjes online toen de stroom na 2 uur terug kwam...

Ik ga morgen i.i.g. even de SMART statussen nalezen via een aparte machine. Machine uit, schijven van label voorzien, één voor één aan een andere machine hangen, SMART testen en waar mogelijk een 1-op-1 clone maken op een verse schijf. Afhankelijk van de SMART dan maar eens kijken wat ik ga doen.

donderdag 5 februari 2015 17:39

Acties:

BartNL

het ligt er aan hoe belangrijk de data is. Als het erg belangrijke data is eerst 1:1 kopie maken van de disk maar waarschijnlijk heb je dan al een backup.
Dan booten met alleen de defecte array en dan via Areca (web)interface 'raid set functions' -> 'rescue raid set' functie,
RESCUE -> reboot -> SIGNAT -> reboot -> LeVeL2ReScUe -> reboot -> SIGNAT

Werkte bij mij bij twee stroomstoringen goed. Wanneer er ten tijde van de stroomstoring naar de schijven werd geschreven kan het zijn dat de dat niet meer 100% safe is. Je kun na herstul dus beste alsnog een backup maken en/of een volumeset check.

donderdag 5 februari 2015 18:22

Acties:

eborn

Topicstarter

Sowieso ben ik de belangrijkste dingen momenteel uit de backup aan het restoren op nieuwe hardware. Van een aantal VM's heb ik echter geen image maar enkel de belangrijkste files (data, configs, dat soort dingen). Die moet ik dus even opnieuw inrichten. En ik verwacht dat ik straks ook nog wel denk: ai, daar heb ik geen backup van. Dus dan is het fijn als ik in ieder geval nog data van de oude raidset kan halen

Ik ga het morgen dus eerst eens proberen met 4 nieuwe disks die een 1:1 kopie zijn van de failed disks. En dan inderdaad jouw stappenplan proberen (als het array nog niet gevonden wordt).

donderdag 5 februari 2015 18:59

Acties:

BartNL

succes, de commando's zijn case sensitive

vrijdag 6 februari 2015 13:02

Acties:

eborn

Topicstarter

Qua disks is het in ieder geval einde oefening. Ik heb ze één voor één aangesloten op een andere machine, maar je hoort hem vastlopen en de machine herkent de schijf ook helemaal niet meer. Alleen het type, maar zodra je een OS gaat opstarten blijft hij het proberen en hoor je de kop steeds resetten.