Waarom zijn 2 hardeschijven kapot gegaan? - Opslag en back-up

dinsdag 19 februari 2013 12:34

Acties:

Topicstarter

Maanden terug deed een geforceerde S.M.A.R.T. test disk2 uit een mdadm raid5 array (3 disks) vallen. Dit is hergeproduceerd en gebeurde alleen bij het uitvoeren van deze S.M.A.R.T. test. Ik heb het probleem daarom genegeerd. (Back-ups aanwezig.) Het aparte was dat hierbij het hele systeem vast ging hangen. VGA output, noem maar op...

Vanaf vrijdag dat ik een disk hot(in)plugde is het een ander verhaal geworden.
Een aantal gebeurtenissen:
1. Bij het hotpluggen van een 4e hardeschijf, spinde 1 van de 3 vaste hardeschijven down. SATA data was toen nog niet aangekoppeld. Behalve dat deze disk niet down hoort te spinnen, ging het extreem traag; 20 seconden in plaats van de normale 2. Via SSH bleef de PC bereikbaar, de VGA output (en daarmee VNC) waren bevroren.
2. Het uitvoeren van dezelfde S.M.A.R.T. test op disk1 deed de array nu ook falen.
3. Disk3 is perfect in orde, toch is op onverklaarbare wijze het mdadm superblock van deze disk verdwenen.
4. Met disk2 en disk3 is de array degraded (re-create) gestart. Na het low level formatteren van disk1 en het toevoegen aan de array begint recovery, maar seconden hierna klapte de volledige array er uit.
5. De back-up schijf is aan een poort gehangen waar normaal een van de array disks op hangt, de enige info die ik over deze situatie heb is dat mounten niet mogelijk was door communicatie errors. Dit ga ik niet nog een keer proberen gezien het een back-up schijf is. Misschien was de poort in de sessie al 'aangetast door een brakke HDD.'
6. Bij het testen van disks komt het voor dat de disk toegang freezed, na hot(un)pluggen is er weer toegang.
7. Vanaf het begin van het debuggen van deze situatie tot nu, zijn de S.M.A.R.T. waarden van disk2 extreem achter uit gegaan.

Voor mij staat vast dat disk1 niet meer bruikbaar is. Het plan is een nieuwe array aan te leggen en dan kan de oude array gekopieerd worden. Tenzij de array faalt, dan ben ik aangewezen op de back-up die alleen belangrijke bestanden bevat.

De vraag: is er meer aan de hand dan alleen het falen van disks? Ik bedoel: 2 disks die echt helemaal aan gort zijn, dat is verdacht. Waarom zijn 2 hardeschijven kapot?

Voeding
Van de voeding zijn de 5V en 12V lijnen binnen de marge. Met 12,30V zie ik het liever iets lager, maar behalve dat het binnen de marge is, zit mijn perfect werkende desktop zelfs op 12,37V. Disk3 is hardware technisch in perfecte staat. Deze disk hangt op dezelfde stroomkabel als disk1. Disk2 en de back-up schijf delen ook een kabel. De voeding lijkt mij niet de schuldige.

HDD batch
De disk1 en disk2 zijn nu 4,5 jaar oud. Disk3 2,5 jaar. Zolang hebben ze 24/7 gedraaid. Omdat disk1 en disk2 de experimentele fase van de server hebben meegemaakt is hun belasting wel hoger geweest: 340 starts/stops voor disk1, 360 voor disk2, 30 voor disk3. Power cycles vertonen dezelfde getallen. Maar deze getallen zijn nog steeds 8x lager dan bij een desktop. Het aantal maal stroomuitval is op een hand te tellen, hierbij ook nooit rare situaties gehad. De back-up schijf is een stuk ouder, en is veel vaker aan/uit geweest. Deze werkt nog perfect. Heb ik soms een verkeerde batch HD753LJ? De serienummers van disk1 en disk2 volgen elkaar op. Disk3, die zoals gezegd later is toegevoegd heeft een compleet ander serienummer. Het zou dus kunnen.

Controller
De eerste 6 gebeurtennisen maken de controller erg verdacht, maar net als bij de voeding zijn er met disk3 weinig gekke dingen gebeurt. Softwarematige problemen zijn te herproduceren op een andere machine, wat de controller toch minder verdacht maakt dan de schijven zelf.

Hotpluggen
Hotpluggen kan ik niet goed testen omdat dit een gevaar is voor de bestaande data en losse healthy disks ontbreken. AHCI staat altijd aan. De back-up disk, die trouwens de enige schijf is die gehot(un)plugt wordt, wordt altijd eerst geunmount. Na wat research blijkt dat dit mogelijk niet genoeg is onder Linux. Maar is dit reden voor hardwarematige beschadigingen op ándere schijven (want de back-up disk zelf is zoals gezegd in goede staat) in de pc, met uitzondering van een van deze drie schijven?

Conclusie?
Ik neig naar een foute batch. Maar zoiets als dit heb ik nooit eerder meegemaakt. Daarom hoor ik graag jullie gedachten.

Aantal	Soort	Product
	PSU	Antec Earthwatts EA 380
	CPU	AMD Athlon X2 4050e Boxed
	MoBo	Gigabyte GA-MA74GM-S2H Rev. 1
	Mem	Kingston ValueRAM KVR800D2N5K2/2G
3	HDD	Samsung Spinpoint F1 HD753LJ

woensdag 20 februari 2013 14:29

Acties:

Hippocampus

ᓚᘏᗢ

Het falen van twee schijven uit dezelfde productserie is voor mij (helaas) geen vreemde zaak. Dus wat dat betreft komt het vaker voor, en schuif ik het (zonder harde bewijzen) maar onder de noemer slechte batch.

Het zou misschien ook kunnen zijn dat de eerste twee schijven niet raid compatible zijn, en de derde wel ?
Dat er in de jaren andere firmware ontwikkeld en gebruikt is ? Of zelfs eventueel ander hardware op de printplaat ?

En het uiteindelijk falen van de schijf kan nog steeds van alles zijn, maar ik neem aan dat je foutcodes gekregen hebt van de s.m.a.r.t. ? Of gebruik eens een diagnostisch progje van de fabrikant om te kijken of er iets boven komt.

woensdag 20 februari 2013 16:03

Acties:

Verwijderd

Ik mis de SMART data; want dat lijkt toch een belangrijke factor in je verhaal. Die zelftests zijn onzin, het gaat om de SMART data; die had je moeten veiligstellen omdat dat bewijsmateriaal is. Bewijsmateriaal wat ligt te rotten omdat bijvoorbeeld na een format/zero-write je bewijs is vernietigt. Altijd zo snel mogelijk de SMART veiligstellen dus!

Dan kan je ook in één blik zien wat je probleem is. Mij lijkt bad sectors erg voor de hand; ofwel Current Pending Sector in de SMART output. Als de raw value hiervan niet 0 is, heb je een probleem. Helemaal onder Linux md-raid met legacy filesystem; die hebben helemaal geen bescherming tegen bad sectors. Een hardeschijf met bad sectors staat daar bijna gelijk aan een gefaalde schijf. Dat is natuurlijk wel heel weinig bescherming.

Als je probleem inderdaad bad sectors zou zijn, kun je overwegen om te migreren naar ZFS. Daarmee is dat probleem in één klap opgelost want ZFS lost ter plekke zonder gebruikerstussenkomst alle bad sectors op die ZFS tegenkomt.

Je hebt het verder over controller; bedoel je daar de chipset poorten mee of gebruik je een niet nader vermeldde controller?

woensdag 20 februari 2013 18:52

Acties:

Saturnus

Topicstarter

@Hippocampus
Mdadm RAID gebeurt op een niveau nog verder van de hardware af dan andere RAID vormen. Voor de schijf is dat voor zover ik weet gewoon niets anders dan als non-RAID data ontvangen.
Dat het hardeschijf design verandert is absoluut mogelijk. Voor compatibiliteit tegenover elkaar maakt dit niet uit bij mdadm, maar wel mogelijk is dat disk[1-2] een slecht ontwerp hebben, of meer waarschijnlijk, slechte batch.

@CiPHER
Ik weet niet zeker hoe het zit met mdadm versus bad sectors, maar ik neem toch aan dat het filesystem daar boven op, dan wel om een nieuwe sector vraagt als de hardeschijf dat zelf al niet doet.

ZFS heb ik geen enkele ervaring mee, volgens mij is de compatibiliteit met Ubuntu nog niet erg goed, maar ik zal het zeker bekijken en onderzoeken.

De controller is in dit geval inderdaad de chipset en bijbehorende poorten op het moederbord.

Wat S.M.A.R.T. betreft heb ik outputs van vrijdag en nu.
Zie http://members.home.nl/saturnusdj/smartctl/
Toelichting:
Disk1 lijkt er op de bad sectors na (die al lang stabiel zijn) goed te zijn. Ook Samsung's Utility zei dat de hardeschijf goed is. (Low level format gedaan.) Zelf ondervond ik toch communicatie problemen na belasting.
Disk2 klapte er dus wel eens uit na een S.M.A.R.T. test. Echter sinds vrijdag is deze disk extreem hard achter uit gegaan.
Disk3 altijd in orde geweest, en ook nu nog.

Ik moet inderdaad bekennen dat ik te weinig gedocumenteerd heb, als ik wist dat het van pas kwam had ik dat absoluut gedaan. En met gedocumenteerd bedoel ik niet alleen S.M.A.R.T. maar ook 'opvallendheden' die niet in statische data uit te drukken zijn.

woensdag 20 februari 2013 19:27

Acties:

Verwijderd

Oeh, disk1 heeft 345 bad sectors die zijn omgewisseld dus fysiek beschadigd. Je hebt geformatteert dus de Current Pending Sector staat nu weer op 0; dat is verloren bewijsmateriaal. Maar genoeg aanleiding om deze schijf af te schrijven; 345 omgewisselde sectoren is gewoon veel. Niet dat de schijf op springen staat, maar het kan zomaar zijn dat je binnenkort weer pending sectors krijgt, en dan weer gezeik krijgt in Linux md-raid.

Disk2 heeft op dit moment nog actieve bad sectors, Current Pending Sector staat op 79 en er zijn ook al 41 omgewisselde sectoren. Kortom, dit is ook erg hoog en persoonlijk zou ik ook deze schijf al omwisselen / RMA / retourneren.

Je loopt door deze bad sectors toch wel risico. Ik kan je daarom alleen maar adviseren om serieus naar ZFS te kijken als alternatief. Dan ben je vrijwel immuun voor bad sectors, mits je een redundante configuratie draait zoals mirror of RAID-Z (raid5 zeg maar). ZFS corrigeert dan automatisch de bad sectors door ze te overschrijven. De hardeschijf kan dan de sector gewoon weer in gebruik nemen als deze niet fysiek beschadigd was, ofwel de sector omruilen voor een reservesector als deze ook na overschrijven met nieuwe data onleesbaar blijft.

Kortom, juist voor dit soort gezeik wil je ZFS draaien. Ubuntu kun je ZFS-on-Linux op draaien. Veel mensen draaien dat al. Ik ben iets voorzichtiger en ken de lange weg die FreeBSD heeft afgelegd om een stabiele ZFS implementatie te verkrijgen. Ik kan dan ook vooral dit platform aanraden, concreet betekent dit FreeNAS, NAS4Free of ZFSguru. Ik werk zelf mee aan laatstgenoemd project. Het idee daarbij is wel dat je een aparte computer bouwt voor ZFS opslag, een NAS dus. Die beheer je via je webbrowser in een web-interface en alle opslag gaat dan via Windows/Mac/Linux via Samba of NFS.

Wil je meer leren over deze wereld, neem dan eens een kijkje in dit topic en de uitgebreide topicstart met name die ik niet zo lang geleden nog heb aangevuld: Het grote ZFS topic

woensdag 20 februari 2013 22:12

Acties:

Saturnus

Topicstarter

Precies. Ik heb geen idee waar die beschadigingen op disk1 vandaan komen. Ze waren er ook voor het low level formateren al, sterker nog, ze zijn er al zeker 2-3 jaar, maar de schijf was altijd stabiel.
Disk2 was niet stabiel, zoals gezegd, maar de fouten die nu worden vertoont waren er niet: extreme toename in beschadigde sectoren, leesfouten en servo/seek failure.

Op dit moment ben ik op zoek naar 3 schijven om een nieuwe array op te zetten. Daarna hoop ik de data van de oude array (degraded; disk2 en disk3) af te halen, waarna ook disk2 rijp is voor de slacht, en disk3 back-up schijf kan worden.

Voorlopig houd ik het bij Ubuntu, en waarschijnlijk ook mdadm raid5. Dit omdat het in productie nemen van iets waar je niet bekend mee bent nog onveiliger is. Eerst met ZFS oefenen en testen, iets wat ik zeker ga doen.

maandag 25 februari 2013 17:50

Acties:

Saturnus

Topicstarter

Voor de geïnteresseerden: Ik heb een verband gevonden: SATA is niet hotpluggable door de PSU?
Ik verwacht echter niet dat dit de oorzaak is geweest. Wat wel het geval lijkt is dat door de smart test die opdracht gaf tot een spin down/up test, een andere schijf te weinig vermogen kreeg, zoals beschreven in dat topic.