Ik draai al een paar jaar een Linux-based RAID-servertje met volledige software-RAID-5 (mdraid). Dit systeem bestaat tegenwoordig uit de volgende componenten:
1x ASUS E35M1-M PRO
3x Samsung HD203WI (RAID)
1x Samsung HD204xx (RAID) (was tot een jaar geleden ook een HD203, maar die begaf het dus vervangen voor de HD204 en na de RMA niet meer teruggezet)
1x Samsung HD80xxxx (2.5" disk voor OS)
1x CoolerMaster RS-380
2 weken geleden kwam er uit een transformatorhuisje in de buurt wat rook, dus de netbeheerder en brandweer vonden het raadzaam de spanning in de wijk uit te schakelen (begrijpelijk), waardoor het servertje plat ging (ook nog begrijpelijk).
Nadat ik 's avonds thuis kwam van m' n werk probeerde ik de server weer aan te zetten, maar Linux kreeg de RAID array niet meer in de lucht.
Ik vermoedde dat het uitschakelen van het net nog wel eens een piek op het stroomnet gezet kon hebben en dat 1 van de disks wellicht overleden was. In Linux kwam ik er initieel niet achter welke (alle disks waren zichtbaar), maar toen ik later in de BIOS keek ontbrak er toch echt 1 disk. Deze disk vervangen door een andere HD203WI (die van de RMA), maar er bleef een disk missen. Ik heb toen in een ander systeem (een medion 8828 denk ik) elke disk afzonderlijk getest, en de BIOS van die bak herkende ze allemaal (inclusief de vervangde disk).
Helaas (of gelukkig) moest ik daarna 2 weken op vakantie, dus ik ben vandaag pas verder gaan kijken en het gedrag was weer anders dan 2 weken geleden. In zowel de server als (weer) een ander systeem (ook AMD gebaseerd, maar dan een Phenom X4) worden alleen nog de HD80xxxx en de HD204xx gezien. Alle HD230WI's (incluis degene die niet in het systeem zat toen de spanning uitviel) worden door de beide AMD-systemen niet gezien.
Ik heb de disks dus maar weer eens afzonderlijk in de Medion getest, en hij blijft ze zien. Sterker nog: ik heb nu alle 5 de disks in de Medion hangen en m'n hele software-RAID-5 startte in 1 keer op (ben dus nu alle data aan't back-uppen). De disks lijken dus niet kapot te zijn (of in ieder geval niet volledig).
Het vreemde is dat het Phenom X4 systeem (met 1x Crucial SSD voor OS en 4X 1TB WD Caviar Green in RAID10 op exact dezelfde SATA-poorten) gewoon goed draait. Dus dat moederbord lijkt ook niet (compleet) kapot te zijn.
Iets moet er kapot zijn gegaan na de stroomstoring, anders deed m'n servertje het wel, maar ik kan niet bepalen welk onderdeel dan kapot moet zijn, aangezien alle onderdelen in andere combinaties werken. Wat voor testen kan ik nog doen om te bepalen welk onderdeel kapot is? Of kan alleen nog maar de kostbare oplossing (alles vervangen) er voor zorgen dat ik die RAID weer kan vertrouwen?
1x ASUS E35M1-M PRO
3x Samsung HD203WI (RAID)
1x Samsung HD204xx (RAID) (was tot een jaar geleden ook een HD203, maar die begaf het dus vervangen voor de HD204 en na de RMA niet meer teruggezet)
1x Samsung HD80xxxx (2.5" disk voor OS)
1x CoolerMaster RS-380
2 weken geleden kwam er uit een transformatorhuisje in de buurt wat rook, dus de netbeheerder en brandweer vonden het raadzaam de spanning in de wijk uit te schakelen (begrijpelijk), waardoor het servertje plat ging (ook nog begrijpelijk).
Nadat ik 's avonds thuis kwam van m' n werk probeerde ik de server weer aan te zetten, maar Linux kreeg de RAID array niet meer in de lucht.
Ik vermoedde dat het uitschakelen van het net nog wel eens een piek op het stroomnet gezet kon hebben en dat 1 van de disks wellicht overleden was. In Linux kwam ik er initieel niet achter welke (alle disks waren zichtbaar), maar toen ik later in de BIOS keek ontbrak er toch echt 1 disk. Deze disk vervangen door een andere HD203WI (die van de RMA), maar er bleef een disk missen. Ik heb toen in een ander systeem (een medion 8828 denk ik) elke disk afzonderlijk getest, en de BIOS van die bak herkende ze allemaal (inclusief de vervangde disk).
Helaas (of gelukkig) moest ik daarna 2 weken op vakantie, dus ik ben vandaag pas verder gaan kijken en het gedrag was weer anders dan 2 weken geleden. In zowel de server als (weer) een ander systeem (ook AMD gebaseerd, maar dan een Phenom X4) worden alleen nog de HD80xxxx en de HD204xx gezien. Alle HD230WI's (incluis degene die niet in het systeem zat toen de spanning uitviel) worden door de beide AMD-systemen niet gezien.
Ik heb de disks dus maar weer eens afzonderlijk in de Medion getest, en hij blijft ze zien. Sterker nog: ik heb nu alle 5 de disks in de Medion hangen en m'n hele software-RAID-5 startte in 1 keer op (ben dus nu alle data aan't back-uppen). De disks lijken dus niet kapot te zijn (of in ieder geval niet volledig).
Het vreemde is dat het Phenom X4 systeem (met 1x Crucial SSD voor OS en 4X 1TB WD Caviar Green in RAID10 op exact dezelfde SATA-poorten) gewoon goed draait. Dus dat moederbord lijkt ook niet (compleet) kapot te zijn.
Iets moet er kapot zijn gegaan na de stroomstoring, anders deed m'n servertje het wel, maar ik kan niet bepalen welk onderdeel dan kapot moet zijn, aangezien alle onderdelen in andere combinaties werken. Wat voor testen kan ik nog doen om te bepalen welk onderdeel kapot is? Of kan alleen nog maar de kostbare oplossing (alles vervangen) er voor zorgen dat ik die RAID weer kan vertrouwen?