Jezus.. Heb me toch een gedonder met een QNAP TS-509 hier...
Vorig jaar december gekocht, met 5x WD15EADS in RAID5. Heeft een jaartje lekker gelopen, maar twee weken geleden dropped mdadm disk 1 uit de array. Wat gechecked, toen maar mdmadm --add gedaan. Na rebuild en bad block scan in orde. Week later, net toen ik dacht dat het een glitch was, dropped dezelfde disk er uit. Nieuwe besteld, maar toch maar een rebuild laten doen, welke ook goed ging. Een dag later knalt hij er weer uit, dus serieus verrotte disk, ook al zegt bad block scan alles in orde, en is de SMART status ook in orde.
Anyway, er waren wat problemen met het versturen van de vervangende disk, dus heb ik snel een (splinternieuwe) Samsung HD1541 er in gemikt, welke uiteindelijk netjes rebuilde en daarna een goede status had. Interessant detail, ik zag in de syslog een reboot staan, en daarna een nieuwe rebuild welke uiteindelijk goed was.
Nieuwe disk die ik had besteld komt maandag binnen, dus ik haal dinsdagochtend de Samsung er uit, en stop de nieuwe WD15EADS er weer in. Ding begint met rebuilden. 8 uur later, crash NAS, en opnieuw rebuilden na reboot. Ik ga het tracken en zie dat tijdens de rebuild op 99.9% met 0.0 minuten te gaan de NAS crashed (unexpected system shutdown). Read/write error op disk 1 (die is dus nieuw er in gezet).
/sbin/syslogd gestart, en nieuwe rebuild gestart met het handje, om zo te zien of het weer gebeurt, ook als we de scripts van QNAP er buiten laten (immers native mdadm commando's en geen GUI). Helaas gebeurt het weer, exact hetzelfde, en 0,0 niks te zien in /var/log/messages.
Om het continous rebuilden te stoppen heb ik maar een mdadm --fail en --remove gedaan.
Ondertussen is de RMA disk van WD onderweg. Die zal vandaag afgeleverd worden. Als die er is gaat die er in, en dan even duimen dat de nieuw bestelde disk (al op voorhand besteld dus geen RMA) toch een DOA was met teveel bad blocks.
Op internet kan ik redelijk vergelijkbare dingen vinden (wel heel weinig), en het lijkt er op dat ze allen hetzelfde probleem delen, namelijk bad blocks op de disk. Als dat zo zou zijn zou de vervanger vandaag uitsluitsel moeten kunnen bieden, maar ik maak me zorgen dat er nog ergens bad blocks zijn op de andere 4 disks, waar hij nu de parity vanaf moet berekenen. Aan de andere kant kan dat niet, want dan zouden er al meer failed moeten zijn met een read/write error.
Als dat ook niet werkt, zoek ik het in of hardware van de TS509, of firmware (3.2.4 build 0315T). Firmware upgraden hou ik sowieso al niet van, daarnaast zie ik geen issues mbt dit probleem in de release notes van opvolgende firmwares, en upgraden met een degraded array is ook niet echt lekker (als het al gaat).
Ik ben in ieder geval al mijn VM's offline aan het backuppen naar een workstation, foto's en videos waren al gerepliceerd naar een externe locatie. Zorgen voor een goede backup die zoveel mogelijk beslaat begint langzaamaan de veiligste optie te lijken, want ik zie het nog gebeuren dat ik de hele NAS opnieuw moet gaan inrichten.
Jaja, raid is geen backup.. kom daar aub niet mee aan want het is mijn vak

Er is nu eenmaal data die niet belangrijk genoeg is om routinely mee te nemen in backups, maar gewoon irritant is als je het kwijt bent. Geloof me, alles wat écht belangrijk is op die NAS, wordt in 3-voud gebackupped