Maanden terug deed een geforceerde S.M.A.R.T. test disk2 uit een mdadm raid5 array (3 disks) vallen. Dit is hergeproduceerd en gebeurde alleen bij het uitvoeren van deze S.M.A.R.T. test. Ik heb het probleem daarom genegeerd. (Back-ups aanwezig.) Het aparte was dat hierbij het hele systeem vast ging hangen. VGA output, noem maar op...
Vanaf vrijdag dat ik een disk hot(in)plugde is het een ander verhaal geworden.
Een aantal gebeurtenissen:
1. Bij het hotpluggen van een 4e hardeschijf, spinde 1 van de 3 vaste hardeschijven down. SATA data was toen nog niet aangekoppeld. Behalve dat deze disk niet down hoort te spinnen, ging het extreem traag; 20 seconden in plaats van de normale 2. Via SSH bleef de PC bereikbaar, de VGA output (en daarmee VNC) waren bevroren.
2. Het uitvoeren van dezelfde S.M.A.R.T. test op disk1 deed de array nu ook falen.
3. Disk3 is perfect in orde, toch is op onverklaarbare wijze het mdadm superblock van deze disk verdwenen.
4. Met disk2 en disk3 is de array degraded (re-create) gestart. Na het low level formatteren van disk1 en het toevoegen aan de array begint recovery, maar seconden hierna klapte de volledige array er uit.
5. De back-up schijf is aan een poort gehangen waar normaal een van de array disks op hangt, de enige info die ik over deze situatie heb is dat mounten niet mogelijk was door communicatie errors. Dit ga ik niet nog een keer proberen gezien het een back-up schijf is. Misschien was de poort in de sessie al 'aangetast door een brakke HDD.'
6. Bij het testen van disks komt het voor dat de disk toegang freezed, na hot(un)pluggen is er weer toegang.
7. Vanaf het begin van het debuggen van deze situatie tot nu, zijn de S.M.A.R.T. waarden van disk2 extreem achter uit gegaan.
Voor mij staat vast dat disk1 niet meer bruikbaar is. Het plan is een nieuwe array aan te leggen en dan kan de oude array gekopieerd worden. Tenzij de array faalt, dan ben ik aangewezen op de back-up die alleen belangrijke bestanden bevat.
De vraag: is er meer aan de hand dan alleen het falen van disks? Ik bedoel: 2 disks die echt helemaal aan gort zijn, dat is verdacht. Waarom zijn 2 hardeschijven kapot?
Voeding
Van de voeding zijn de 5V en 12V lijnen binnen de marge. Met 12,30V zie ik het liever iets lager, maar behalve dat het binnen de marge is, zit mijn perfect werkende desktop zelfs op 12,37V. Disk3 is hardware technisch in perfecte staat. Deze disk hangt op dezelfde stroomkabel als disk1. Disk2 en de back-up schijf delen ook een kabel. De voeding lijkt mij niet de schuldige.
HDD batch
De disk1 en disk2 zijn nu 4,5 jaar oud. Disk3 2,5 jaar. Zolang hebben ze 24/7 gedraaid. Omdat disk1 en disk2 de experimentele fase van de server hebben meegemaakt is hun belasting wel hoger geweest: 340 starts/stops voor disk1, 360 voor disk2, 30 voor disk3. Power cycles vertonen dezelfde getallen. Maar deze getallen zijn nog steeds 8x lager dan bij een desktop. Het aantal maal stroomuitval is op een hand te tellen, hierbij ook nooit rare situaties gehad. De back-up schijf is een stuk ouder, en is veel vaker aan/uit geweest. Deze werkt nog perfect. Heb ik soms een verkeerde batch HD753LJ? De serienummers van disk1 en disk2 volgen elkaar op. Disk3, die zoals gezegd later is toegevoegd heeft een compleet ander serienummer. Het zou dus kunnen.
Controller
De eerste 6 gebeurtennisen maken de controller erg verdacht, maar net als bij de voeding zijn er met disk3 weinig gekke dingen gebeurt. Softwarematige problemen zijn te herproduceren op een andere machine, wat de controller toch minder verdacht maakt dan de schijven zelf.
Hotpluggen
Hotpluggen kan ik niet goed testen omdat dit een gevaar is voor de bestaande data en losse healthy disks ontbreken. AHCI staat altijd aan. De back-up disk, die trouwens de enige schijf is die gehot(un)plugt wordt, wordt altijd eerst geunmount. Na wat research blijkt dat dit mogelijk niet genoeg is onder Linux. Maar is dit reden voor hardwarematige beschadigingen op ándere schijven (want de back-up disk zelf is zoals gezegd in goede staat) in de pc, met uitzondering van een van deze drie schijven?
Conclusie?
Ik neig naar een foute batch. Maar zoiets als dit heb ik nooit eerder meegemaakt. Daarom hoor ik graag jullie gedachten.
Vanaf vrijdag dat ik een disk hot(in)plugde is het een ander verhaal geworden.
Een aantal gebeurtenissen:
1. Bij het hotpluggen van een 4e hardeschijf, spinde 1 van de 3 vaste hardeschijven down. SATA data was toen nog niet aangekoppeld. Behalve dat deze disk niet down hoort te spinnen, ging het extreem traag; 20 seconden in plaats van de normale 2. Via SSH bleef de PC bereikbaar, de VGA output (en daarmee VNC) waren bevroren.
2. Het uitvoeren van dezelfde S.M.A.R.T. test op disk1 deed de array nu ook falen.
3. Disk3 is perfect in orde, toch is op onverklaarbare wijze het mdadm superblock van deze disk verdwenen.
4. Met disk2 en disk3 is de array degraded (re-create) gestart. Na het low level formatteren van disk1 en het toevoegen aan de array begint recovery, maar seconden hierna klapte de volledige array er uit.
5. De back-up schijf is aan een poort gehangen waar normaal een van de array disks op hangt, de enige info die ik over deze situatie heb is dat mounten niet mogelijk was door communicatie errors. Dit ga ik niet nog een keer proberen gezien het een back-up schijf is. Misschien was de poort in de sessie al 'aangetast door een brakke HDD.'
6. Bij het testen van disks komt het voor dat de disk toegang freezed, na hot(un)pluggen is er weer toegang.
7. Vanaf het begin van het debuggen van deze situatie tot nu, zijn de S.M.A.R.T. waarden van disk2 extreem achter uit gegaan.
Voor mij staat vast dat disk1 niet meer bruikbaar is. Het plan is een nieuwe array aan te leggen en dan kan de oude array gekopieerd worden. Tenzij de array faalt, dan ben ik aangewezen op de back-up die alleen belangrijke bestanden bevat.
De vraag: is er meer aan de hand dan alleen het falen van disks? Ik bedoel: 2 disks die echt helemaal aan gort zijn, dat is verdacht. Waarom zijn 2 hardeschijven kapot?
Voeding
Van de voeding zijn de 5V en 12V lijnen binnen de marge. Met 12,30V zie ik het liever iets lager, maar behalve dat het binnen de marge is, zit mijn perfect werkende desktop zelfs op 12,37V. Disk3 is hardware technisch in perfecte staat. Deze disk hangt op dezelfde stroomkabel als disk1. Disk2 en de back-up schijf delen ook een kabel. De voeding lijkt mij niet de schuldige.
HDD batch
De disk1 en disk2 zijn nu 4,5 jaar oud. Disk3 2,5 jaar. Zolang hebben ze 24/7 gedraaid. Omdat disk1 en disk2 de experimentele fase van de server hebben meegemaakt is hun belasting wel hoger geweest: 340 starts/stops voor disk1, 360 voor disk2, 30 voor disk3. Power cycles vertonen dezelfde getallen. Maar deze getallen zijn nog steeds 8x lager dan bij een desktop. Het aantal maal stroomuitval is op een hand te tellen, hierbij ook nooit rare situaties gehad. De back-up schijf is een stuk ouder, en is veel vaker aan/uit geweest. Deze werkt nog perfect. Heb ik soms een verkeerde batch HD753LJ? De serienummers van disk1 en disk2 volgen elkaar op. Disk3, die zoals gezegd later is toegevoegd heeft een compleet ander serienummer. Het zou dus kunnen.
Controller
De eerste 6 gebeurtennisen maken de controller erg verdacht, maar net als bij de voeding zijn er met disk3 weinig gekke dingen gebeurt. Softwarematige problemen zijn te herproduceren op een andere machine, wat de controller toch minder verdacht maakt dan de schijven zelf.
Hotpluggen
Hotpluggen kan ik niet goed testen omdat dit een gevaar is voor de bestaande data en losse healthy disks ontbreken. AHCI staat altijd aan. De back-up disk, die trouwens de enige schijf is die gehot(un)plugt wordt, wordt altijd eerst geunmount. Na wat research blijkt dat dit mogelijk niet genoeg is onder Linux. Maar is dit reden voor hardwarematige beschadigingen op ándere schijven (want de back-up disk zelf is zoals gezegd in goede staat) in de pc, met uitzondering van een van deze drie schijven?
Conclusie?
Ik neig naar een foute batch. Maar zoiets als dit heb ik nooit eerder meegemaakt. Daarom hoor ik graag jullie gedachten.
Aantal | Soort | Product |
PSU | Antec Earthwatts EA 380 | |
CPU | AMD Athlon X2 4050e Boxed | |
MoBo | Gigabyte GA-MA74GM-S2H Rev. 1 | |
Mem | Kingston ValueRAM KVR800D2N5K2/2G | |
3 | HDD | Samsung Spinpoint F1 HD753LJ |