[Xubuntu 12.04] mdadm wil RAID5 niet meer recoveren - Opslag en back-up

maandag 25 november 2013 12:27

Acties:

Rubber Rocket

Topicstarter

Beste Tweakers,

Sinds enige tijd draai ik software RAID5 op mijn Xubuntu 12.04.3 machine.

Hierin ziten 5 schijven:

/dev/sda (WD20EARX-00PASB0)
/dev/sdb (Samsung HD2004UI)
/dev/sdc (WD20EZRX-00D8PB0)
/dev/sdd (WD20EARX-00PASB0)
/dev/sde (Samsung HM160HI) Boot + OS disk

De onderlijnde schijf is zojuist vervangen, maar tijdens het syncen (nog voor 1%) faalt de dikgedrukte schijf. Alle vier de schijven zijn 2TB groot, hebben een Linux SW partitie en zitten op het moederbord aangesloten. Dit zijn de vier dataschijven voor mijn mdadm.

Ik heb het systeem al meerdere keren herstart, maar het lijkt niet te willen werken.

Ik weet niet of jullie nog extra info nodig hebben (mdadm --detail of een dmesg). Maar ik zou graag jullie input willen of er nog mogelijkheden zijn dit systeem te recoveren.

Thanks

Matis

[ Voor 94% gewijzigd door Matis op 25-11-2013 12:32 ]

If money talks then I'm a mime
If time is money then I'm out of time

maandag 25 november 2013 12:30

Acties:

it0

Mijn mening is een feit.

ik neem aan dat je de raid op de 4 schijven draait.

Recoveren lijkt me zeker mogelijk als er geen hw fout is. Stuur idd de mdadm/dmesg details maar door.

maandag 25 november 2013 12:32

Acties:

Matis

Rubber Rocket

Topicstarter

Ik weet niet zeker of er geen hardware fout is, maar de kans lijkt me klein.

Hier in ieder geval de poging om het array te rebuilden, welke nagenoeg onmiddelijk weer faalt:

hemy@hemy-server:~$ sudo mdadm --stop /dev/md0
mdadm: stopped /dev/md0

hemy@hemy-server:~$ cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
unused devices: <none>

hemy@hemy-server:~$ sudo mdadm --assemble --force /dev/md0 /dev/sd[abcd]1
mdadm: forcing event count in /dev/sdd1(3) from 206 upto 211
mdadm: clearing FAULTY flag for device 3 in /dev/md0 for /dev/sdd1
mdadm: Marking array /dev/md0 as 'clean'
mdadm: /dev/md0 has been started with 3 drives (out of 4) and 1 spare.

hemy@hemy-server:~$ cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sda1[0] sdc1[4](S) sdd1[5](F) sdb1[1]
      5857345344 blocks level 5, 64k chunk, algorithm 2 [4/2] [UU__]

unused devices: <none>

hemy@hemy-server:~$ sudo mdadm --stop /dev/md0
mdadm: stopped /dev/md0

hemy@hemy-server:~$ sudo mdadm --assemble --force /dev/md0 /dev/sd[abcd]1
mdadm: forcing event count in /dev/sdd1(3) from 212 upto 215
mdadm: clearing FAULTY flag for device 3 in /dev/md0 for /dev/sdd1
mdadm: Marking array /dev/md0 as 'clean'
mdadm: /dev/md0 has been started with 3 drives (out of 4) and 1 spare.

hemy@hemy-server:~$ cat /proc/mdstat
Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10]
md0 : active raid5 sda1[0] sdc1[4](S) sdd1[5](F) sdb1[1]
      5857345344 blocks level 5, 64k chunk, algorithm 2 [4/2] [UU__]

unused devices: <none>

hemy@hemy-server:~$ sudo mdadm --detail /dev/md0
/dev/md0:
        Version : 0.90
  Creation Time : Wed Oct  9 16:35:12 2013
     Raid Level : raid5
     Array Size : 5857345344 (5586.00 GiB 5997.92 GB)
  Used Dev Size : 1952448448 (1862.00 GiB 1999.31 GB)
   Raid Devices : 4
  Total Devices : 4
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Mon Nov 25 12:28:49 2013
          State : clean, FAILED
 Active Devices : 2
Working Devices : 3
 Failed Devices : 1
  Spare Devices : 1

         Layout : left-symmetric
     Chunk Size : 64K

           UUID : c24f6ac8:a948ba7c:b8756c74:3dd5f86e (local to host fileserver)
         Events : 0.219

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       1       8       17        1      active sync   /dev/sdb1
       2       0        0        2      removed
       3       0        0        3      removed

       4       8       33        -      spare   /dev/sdc1
       5       8       49        -      faulty spare   /dev/sdd1

De dmesg is nogal groot, maar een selectie kun je hier vinden: http://pastebin.com/6DTN1HJe
Let wel, hierin staan maar de laatste paar minuten. Wanneer je nog meer info wilt, kan je die hier downloaden.

[ Voor 28% gewijzigd door Matis op 25-11-2013 12:43 ]

If money talks then I'm a mime
If time is money then I'm out of time

maandag 25 november 2013 12:58

Acties:

it0

Mijn mening is een feit.

Wat daar staat is dat je een raid5 hebt over 3 disks met 1 Spare, klopt dat?
Als dat zo is dan snap ik niet waarom de spare nog spare is.

Zijn alle disks ook exact even groot?
Laat anders met fdisk de partitie grootte van elke disk zien.
Wat staat er in de syslog/daemon.log etc over het falen van de array?

Edit: Zoals ik het nu lees heb je dus een raid 5 met 4 disken want 3x2=6 TB.
Als dat zo is dan mis je een parity disk en een raid disk. Kortom 2 gefaalde members is game over.

[ Voor 22% gewijzigd door it0 op 25-11-2013 13:03 ]

maandag 25 november 2013 12:58

Acties:

Mijzelf

Je hebt sdc vervangen, waarom? Heb je de oude nog?

maandag 25 november 2013 14:14

Acties:

Verwijderd

Begin altijd met de SMART data, je dient geen wijzigingen uit te voeren aan de schijven zonder eerst de SMART te hebben gecontroleerd. Met name op bad sectors en kabelfouten. Als je dit voor elke disk kunt doen:

smartctl -A -s on /dev/sd[a-f] | grep -i "Pending|UDMA"

Ik zie in je dmesg dat dit waarschijnlijk inderdaad van toepassing is op jouw array. Dan heb je je data wel enorm veel risico laten lopen door gelijk met mdadm commando's te strooien. Ik raad je aan vanaf nu een heel stuk voorzichtiger te zijn, voordat je de laatste kans om je data terug te krijgen verspeelt.

[ Voor 36% gewijzigd door Verwijderd op 25-11-2013 14:16 ]

maandag 25 november 2013 14:45

Acties:

Matis

Rubber Rocket

Topicstarter

it0 schreef op maandag 25 november 2013 @ 12:58:
Wat daar staat is dat je een raid5 hebt over 3 disks met 1 Spare, klopt dat?
Als dat zo is dan snap ik niet waarom de spare nog spare is.

Ik heb een raid5 over 4 disks. De ene spare is de schijf die ik vervangen heb, de andere (faulty spare) is de disk die niet meer lijkt te werken.

Zijn alle disks ook exact even groot?
Laat anders met fdisk de partitie grootte van elke disk zien.

hemy@hemy-server:~$ sudo fdisk -l
[sudo] password for hemy:

Disk /dev/sda: 2000.4 GB, 2000397852160 bytes
185 heads, 60 sectors/track, 351984 cylinders, total 3907027055 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x0002839e

   Device Boot      Start         End      Blocks   Id  System
/dev/sda1            2048  3904899071  1952448512   fd  Linux raid autodetect

Disk /dev/sdb: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x0006a19c

   Device Boot      Start         End      Blocks   Id  System
/dev/sdb1              63  3904919549  1952459743+  fd  Linux raid autodetect

Disk /dev/sdc: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x00000000

   Device Boot      Start         End      Blocks   Id  System
/dev/sdc1            2048  3904899071  1952448512   fd  Linux raid autodetect

Disk /dev/sdd: 2000.4 GB, 2000398934016 bytes
255 heads, 63 sectors/track, 243201 cylinders, total 3907029168 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
Disk identifier: 0x000130a4

   Device Boot      Start         End      Blocks   Id  System
/dev/sdd1              64  3904897087  1952448512   fd  Linux raid autodetect

Disk /dev/sde: 160.0 GB, 160041885696 bytes
255 heads, 63 sectors/track, 19457 cylinders, total 312581808 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x000ac2fa

   Device Boot      Start         End      Blocks   Id  System
/dev/sde1   *        2048    19531775     9764864   83  Linux
/dev/sde2        19533822   312580095   146523137    5  Extended
/dev/sde5        19533824    39063551     9764864   82  Linux swap / Solaris
/dev/sde6        39065600   117188607    39061504   83  Linux
/dev/sde7       117190656   312580095    97694720   83  Linux

Disk /dev/md0: 5997.9 GB, 5997921632256 bytes
2 heads, 4 sectors/track, 1464336336 cylinders, total 11714690688 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 65536 bytes / 196608 bytes
Disk identifier: 0x00000000

Disk /dev/md0 doesn't contain a valid partition table

Wat staat er in de syslog/daemon.log etc over het falen van de array?

Ik heb geen syslog/daemon.log in /var/log staan, wel heb ik een daemon.log.1 en een syslog.

Edit: Zoals ik het nu lees heb je dus een raid 5 met 4 disken want 3x2=6 TB.
Als dat zo is dan mis je een parity disk en een raid disk. Kortom 2 gefaalde members is game over.

Daar lijkt het nu wel op inderdaad

Mijzelf schreef op maandag 25 november 2013 @ 12:58:
Je hebt sdc vervangen, waarom? Heb je de oude nog?

Ik heb sdc vervangen, omdat mdadm de schijf als failed markeerde een paar dagen terug. De oude schijf heb ik nog wel liggen. Maar ik weet niet of daar nog bruikbare informatie op staat. Hoe kan ik eventueel de oude disk nog proberen toe te voegen aan de array?

Verwijderd schreef op maandag 25 november 2013 @ 14:14:
Begin altijd met de SMART data, je dient geen wijzigingen uit te voeren aan de schijven zonder eerst de SMART te hebben gecontroleerd. Met name op bad sectors en kabelfouten. Als je dit voor elke disk kunt doen:

smartctl -A -s on /dev/sd[a-f] | grep -i "Pending|UDMA"

Ik moest jouw commando even aanpassen, want op mijn machine leek het eerst niet te werken:

hemy@hemy-server:~$ sudo smartctl -A -s on /dev/sda | grep -i "Pending\|UDMA"
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       189

hemy@hemy-server:~$ sudo smartctl -A -s on /dev/sdb | grep -i "Pending\|UDMA"
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0036   099   099   000    Old_age   Always       -       791

hemy@hemy-server:~$ sudo smartctl -A -s on /dev/sdc | grep -i "Pending\|UDMA"
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0

hemy@hemy-server:~$ sudo smartctl -A -s on /dev/sdd | grep -i "Pending\|UDMA"
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       157

Ik zie in je dmesg dat dit waarschijnlijk inderdaad van toepassing is op jouw array. Dan heb je je data wel enorm veel risico laten lopen door gelijk met mdadm commando's te strooien. Ik raad je aan vanaf nu een heel stuk voorzichtiger te zijn, voordat je de laatste kans om je data terug te krijgen verspeelt.

Sorry dat ik meteen met mdadm commando's begon te strooien. Het leek me echter vrij straight forward, omdat het probleem uit die hoek leek te komen.

Zoals ik al aangaf, ik heb de oude disk (sdc) nog, maar ik weet niet of de data nog bruikbaar is.

Hoe nu verder?

[ Voor 6% gewijzigd door Matis op 25-11-2013 14:47 ]

If money talks then I'm a mime
If time is money then I'm out of time

maandag 25 november 2013 15:07

Acties:

Mijzelf

Matis schreef op maandag 25 november 2013 @ 14:45:
Ik heb sdc vervangen, omdat mdadm de schijf als failed markeerde een paar dagen terug. De oude schijf heb ik nog wel liggen. Maar ik weet niet of daar nog bruikbare informatie op staat. Hoe kan ik eventueel de oude disk nog proberen toe te voegen aan de array?

Tja. Je kunt een lowlevel copie maken naar je nieuwe sdc (waar nog niets nuttigs opstaat, neem ik aan), en dan de array opnieuw creeren met *exact* dezelfde opties en geometrie, en --assume-clean. Eventueel met sdd missing. Mogelijk werkt geforceerd assembleren ook.

maandag 25 november 2013 15:13

Acties:

Verwijderd

Je hebt op sda, sdb en sdd kabelfouten gehad. Dit moet je eerst oplossen voordat je iets met md-raid gaat doen. Daarom kun je beter niet met mdadm commando's gaan strooien voordat je disks stabiel hebt: geen kabelfouten en geen bad sectors.

Nu je kabelfouten hebt moet je weten of dit van het verleden is, of dat het op dit moment nog steeds problemen geeft. Om dit te testen kun je een lange dd read draaien op al je disks:
dd if=/dev/sda of=/dev/null bs=1M &
(de & op het einde laat hem op de achtergrond draaien)

Controleer na een aantal uur of de UDMA CRC Error Count (raw value) is toegenomen sinds dat je de benchmark startte. Als dat het geval is, is je bekabeling op dit moment niet op orde.

Ik raad sterk af dat je met mdadm gaat spelen totdat je de disks stabiel hebt! Rebuild starten met kabelfouten is op dit moment de meest waarschijnlijke aanleiding voor jouw probleem. Voortaan kun je beter eerst de SMART controleren voordat je dat soort dingen doet.

maandag 25 november 2013 15:52

Acties:

Matis

Rubber Rocket

Topicstarter

Mijzelf schreef op maandag 25 november 2013 @ 15:07:
Tja. Je kunt een lowlevel copie maken naar je nieuwe sdc (waar nog niets nuttigs opstaat, neem ik aan), en dan de array opnieuw creeren met *exact* dezelfde opties en geometrie, en --assume-clean. Eventueel met sdd missing. Mogelijk werkt geforceerd assembleren ook.

Het probleem is dat de originele sdc een disk van 2.5TB is, welke ik maar voor 2.0TB had gepetitioneerd. Ik kan dus geen exact kopie maken van de disk. Omdat de nieuwe sdc een 2.0TB schijf is. Daarnaast zijn volgens mij de sector sizes ook anders. 512 tov 4096

Verwijderd schreef op maandag 25 november 2013 @ 15:13:
Je hebt op sda, sdb en sdd kabelfouten gehad. Dit moet je eerst oplossen voordat je iets met md-raid gaat doen. Daarom kun je beter niet met mdadm commando's gaan strooien voordat je disks stabiel hebt: geen kabelfouten en geen bad sectors.

Nu je kabelfouten hebt moet je weten of dit van het verleden is, of dat het op dit moment nog steeds problemen geeft. Om dit te testen kun je een lange dd read draaien op al je disks:
dd if=/dev/sda of=/dev/null bs=1M &
(de & op het einde laat hem op de achtergrond draaien)

Controleer na een aantal uur of de UDMA CRC Error Count (raw value) is toegenomen sinds dat je de benchmark startte. Als dat het geval is, is je bekabeling op dit moment niet op orde.

Ik raad sterk af dat je met mdadm gaat spelen totdat je de disks stabiel hebt! Rebuild starten met kabelfouten is op dit moment de meest waarschijnlijke aanleiding voor jouw probleem. Voortaan kun je beter eerst de SMART controleren voordat je dat soort dingen doet.

Ik heb deze drie schijven ooit via een hardware RAID controller (Areca ARC 1220) gebruikt. Alleen heb ik zoveel problemen met het hele systeem gehad (waar ik de RAID controller van verdacht), dat ik over gestapt ben naar SW RAID. Zie ook Crashende server en (SW)RAID, PSU probleem? en alle onderliggende topics.

Ik heb scriptje geschreven dat eenvoudig die smart-waard es voor alle disks ophaalt.
Momenteel staan de tellers zo:

hemy@hemy-server:~$ sudo ./smart.sh
Mon Nov 25 15:50:22 CET 2013
sda
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       189
sdb
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0036   099   099   000    Old_age   Always       -       791
sdc
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
sdd
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       157

Ik ga de benchmark starten.

If money talks then I'm a mime
If time is money then I'm out of time

maandag 25 november 2013 16:31

Acties:

Mijzelf

Matis schreef op maandag 25 november 2013 @ 15:52:
[...]

Het probleem is dat de originele sdc een disk van 2.5TB is, welke ik maar voor 2.0TB had gepetitioneerd. Ik kan dus geen exact kopie maken van de disk. Omdat de nieuwe sdc een 2.0TB schijf is. Daarnaast zijn volgens mij de sector sizes ook anders. 512 tov 4096

Maakt niet uit. Als alleen de eerste 2TB in gebruik was, past die op die nieuwe schijf. En verschil in sector size maakt ook niet uit. De logical sectors zijn altijd 512B, dus het levert je hoogstens een unaligned disk op. Maar dat kun je verhelpen als je array weer in de lucht is en redundant is.

maandag 25 november 2013 17:19

Acties:

Matis

Rubber Rocket

Topicstarter

Mijzelf schreef op maandag 25 november 2013 @ 16:31:
Maakt niet uit. Als alleen de eerste 2TB in gebruik was, past die op die nieuwe schijf. En verschil in sector size maakt ook niet uit. De logical sectors zijn altijd 512B, dus het levert je hoogstens een unaligned disk op. Maar dat kun je verhelpen als je array weer in de lucht is en redundant is.

In dat geval moet ik een dd doen van sdc(oud)1 naar sdc(nieuw)1? Maar kan ik dan niet gewoon sdc(oud) aankoppelen?

If money talks then I'm a mime
If time is money then I'm out of time

maandag 25 november 2013 20:31

Acties:

Mijzelf

Maakt weinig uit of je sdc kopieert of alleen sdc1. Het verschil is alleen de partition table, die een vaste grootte zal hebben. Wel, misschien niet, als de partitie aligned is zou hij op een groter adres kunnen beginnen. Maar ik denk dat die 2TB schijf ook 4k sectors zal hebben.

Maar kan ik dan niet gewoon sdc(oud) aankoppelen?

Als hij aan het overlijden is niet. Eenmalig linear uitlezen kost minder dan een raid array opnieuw syncen.

maandag 25 november 2013 21:02

Acties:

Verwijderd

Dat kan wel enorm veel uitmaken, afhankelijk van hoe je de RAID hebt aangemaakt: op de ruwe devices of op partities.

RAID metadata wordt normaliter in de laatste sector weggeschreven. Dus als je hele devices gebruikt, dan staat je RAID metadata in de laatste sector van de schijf. Als je RAID op partities hebt gebruikt, dan staat de metadata in de laatste sector binnen die partitie. Je kunt zo'n partitie zien als een container die ook gewoon met LBA0 begint.

Je kunt wel een stripe offset misalignment krijgen als je RAID op partities hebt maar hele disk gaat dd'en, al werkt dit prima onder BSD omdat binnen de container de partitietabel ook gewoon werkt. Geen idee of dat onder Linux het geval is.

@Matis: heb je al nieuws over de benchmark/torture test en de UDMA CRC Error Count? Is deze gestegen of gelijk gebleven? Zo'n dd commando duurt ongeveer 3 uur per disk, maar door ze op de achtergrond uit te voeren kun je ze op alle disks tegelijk starten. Aangezien het read-only is, kun je ook vanalles met de disks doen terwijl de dd commando's draaien.

maandag 25 november 2013 21:25

Acties:

Matis

Rubber Rocket

Topicstarter

De benchmark draait nog. Ik weet niet hoe jij rekent, maar hij is nu al ruim 5 uur bezig met één disk (~95MB/s).
De fouten voor sda is nog niet opgelopen. Is het verstandig om straks eerst sdd te testen, aangezien dat de disk met de meeste problemen is?

Voor wat betreft de partities. Ik heb op alle disks één Linux RAID partitie gemaakt van 2000GB groot. De mdadm array is met die 4 partities opgebouwd.

Edit; Wanneer ik de benchmark voor de 4e (sdd) schijf start krijg ik meteen smart-fouten voor die disk.
De snelheden zijn ook niet om over naar huis te schrijven

hemy@hemy-server:~$ sudo dd if=/dev/sdd of=/dev/null bs=1M
[sudo] password for hemy:
2+0 records in
1+0 records out
1048576 bytes (1.0 MB) copied, 55.2864 s, 19.0 kB/s
3+0 records in
2+0 records out
2097152 bytes (2.1 MB) copied, 91.2698 s, 23.0 kB/s
5+0 records in
4+0 records out
4194304 bytes (4.2 MB) copied, 168.592 s, 24.9 kB/s

Ook het uitlezen van die schijf duurt ook veel langer dan de andere 3 goede disks. Daarnaast heeft tot nu toe ieder gelezen blok van de disk een UDMA_CRC_Error_Count getriggerd.

emy@hemy-server:~$ sudo ./smart.sh
Mon Nov 25 21:29:34 CET 2013
sda
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       189
sdb
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0036   099   099   000    Old_age   Always       -       791
sdc
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
sdd
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   199   199   000    Old_age   Always       -       163

dmesg geeft telkens de volgende (fout)meldingen

Nov 25 21:31:08 hemy-server kernel: [33856.209157] ata4.00: exception Emask 0x50 SAct 0x1 SErr 0x280900 action 0x6 frozen
Nov 25 21:31:08 hemy-server kernel: [33856.209163] ata4.00: irq_stat 0x08000000, interface fatal error
Nov 25 21:31:08 hemy-server kernel: [33856.209168] ata4: SError: { UnrecovData HostInt 10B8B BadCRC }
Nov 25 21:31:08 hemy-server kernel: [33856.209174] ata4.00: failed command: READ FPDMA QUEUED
Nov 25 21:31:08 hemy-server kernel: [33856.209182] ata4.00: cmd 60/08:00:e8:3f:00/00:00:00:00:00/40 tag 0 ncq 4096 in
Nov 25 21:31:08 hemy-server kernel: [33856.209184]          res 40/00:04:e8:3f:00/00:00:00:00:00/40 Emask 0x50 (ATA bus error)
Nov 25 21:31:08 hemy-server kernel: [33856.209188] ata4.00: status: { DRDY }
Nov 25 21:31:08 hemy-server kernel: [33856.209195] ata4: hard resetting link
Nov 25 21:31:09 hemy-server kernel: [33856.700032] ata4: softreset failed (device not ready)
Nov 25 21:31:09 hemy-server kernel: [33856.700040] ata4: applying PMP SRST workaround and retrying
Nov 25 21:31:09 hemy-server kernel: [33856.872049] ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Nov 25 21:31:09 hemy-server kernel: [33856.887243] ata4.00: configured for UDMA/33
Nov 25 21:31:09 hemy-server kernel: [33856.900038] ata4: EH complete

Dit gebeurt alleen voor sdd, de andere disk, waarvan de benchmark nog steeds draait (sda) geeft geen fouten.

Een summiere zoektocht op teh interwebz geeft me de volgende mogelijkheden:

quote: http://lime-technology.co...rive_interface_issue_.231
The presence of BadCRC is a pretty good indicator of a poor quality SATA cable. However, if a better cable does not solve the issue, then it is probably a power problem (loose power cable or backplane connection, poor connectors, poor power splitter, overloaded power supply, too many drives on power rail, bad power supply, etc).

Aan SATA-kabels heb ik gelukkig geen gebrek. Hoe herken ik "goede" SATA-kabels?

Edit 2364: Dat zou trouwens ook wel DE verklaring zijn waarom mijn PC nooit problemen heeft gehad met RAID en de OS disk van mijn server al 24/7 365 5 jaar lang retestabiel draait.
Daarin zitten namelijk (zie ik zojuist) allemaal dezelfde SATA-kabels.
Ik heb nu alleen voor de sdd de SATA-kabel vervangen met een "goede" kabel zoals ze ook aan mijn PC en de OS disk van mijn server zitten.

FUUUUUUUUUUUUUUUUUUUU, na het vervangen van de SATA-kabel gaat het dd-en van de sdd ook superstrak. De snelheid komt overeen met de sda-test van vanmiddag.
De smart-fouten lopen niet meer op.

Zou echt al mijn voorgaande RAID-problemen te wijten zijn geweest aan een 4-tal lullige SATA-kabels?

Woeps, mdadm bleek uit zichzelf weer begonnen te zijnen met het syncen van de disks

De probleem-kabel die ik eruit heb gehaald heeft als opdruk:

LIAN FENG E209329 serial ATA 26AWG AWM 21149 30V 80°C FT1 FT2 -F-

De goede kabel heeft helaas geen opdruk, maar ik heb er in totaal 6 van. 3 in mijn PC. 1 in mijn server aan de OS-disk en ééntje aan de sdd. Volgens mij zaten ze bij een van mijn eerste gigabyte-moederborden.

Hoe kan ik op een veilige manier uitvinden welke van de kabels goed is? Zo heb ik flexibele en stugge kabels, met en zonder lipje, gehoekt en met een bocht. Linksom en rechtsom.

[ Voor 119% gewijzigd door Matis op 25-11-2013 22:12 ]

If money talks then I'm a mime
If time is money then I'm out of time

maandag 25 november 2013 22:28

Acties:

Verwijderd

Zou echt al mijn voorgaande RAID-problemen te wijten zijn geweest aan een 4-tal lullige SATA-kabels?

Dat is prima mogelijk. Daarom: SMART is je vriend. Zo kun je de belangrijkste problemen snel uitsluiten, zeker als je de SMART in de gaten houdt. Eigenlijk maar vooral naar drie dingen kijken: Current Pending Sector (actieve bad sector; gevaarlijk!) - Reallocated Sector Count (omgewisselde reservesectoren; onschuldig tenzij het heel hoog is) en dus UDMA CRC Error Count wat in feite corruptie aangeeft bij het verzenden van gegevens van disk naar host. In 99% wordt dat veroorzaakt door een slechte kabel.

Hoe kan ik op een veilige manier uitvinden welke van de kabels goed is?

Met dat dd commando kun je een redelijke test doen. De UDMA CRC Error Count raw-value gaat nooit meer omlaag. Maar als de waarde gelijk blijft betekent dat dat er geen nieuwe errors zijn opgetreden en dat houdt in dat je kabel weer goed werkt. Dus simpel: doe een dd-test en houd de SMART in de gaten.

Woeps, mdadm bleek uit zichzelf weer begonnen te zijnen met het syncen van de disks

Hiervan lopen de kriebels over mijn buik. Zeker aangezien je zelf wat dingen hebt gedaan met mdadm. Is je data nu toegankelijk en intact?

Ik kan je van harte aanraden om eens ZFS te overwegen voor je data. Door alle extra beschermingsmechanismen in dat filesystem geef je je data veel betere bescherming. Met ZFS is je data bijna niet stuk te krijgen, tenzij je heel vreemde dingen doet. Maar ik zou eerst de integriteit van je bestanden controleren en als dat goed lijkt even opgelucht ademhalen.

maandag 25 november 2013 23:13

Acties:

Matis

Rubber Rocket

Topicstarter

De data is weer benaderbaar en intact. Ik heb meteen de backup gestart van een select aantal mappen.

Ik heb nu een xfs filesystem op RAID5, collega van me draait zelf ook zfs en is erg te spreken over de snapshots van zfs.
De reden dat ik xfs gebruik, is omdat het weinig overhead geeft qua storage itt ext3 en 4 en omdat ik voorheen door een HW RAID controller heenging, waardoor de LVM al geregeld was.

Voor wat betreft mdadm, zoveel spannends heb ik niet gedaan. Alleen maar assembled en gestopt. Al zal ik daar vanaf nu terughoudend mee zijn

Ik ga iig wachten totdat mdadm klaar is met syncen, alvorens vervolgstappen te nemen.

If money talks then I'm a mime
If time is money then I'm out of time

dinsdag 26 november 2013 09:40

Acties:

Mijzelf

Mijzelf schreef op maandag 25 november 2013 @ 20:31:
Maakt weinig uit of je sdc kopieert of alleen sdc1. Het verschil is alleen de partition table, die een vaste grootte zal hebben. Wel, misschien niet, als de partitie aligned is zou hij op een groter adres kunnen beginnen. Maar ik denk dat die 2TB schijf ook 4k sectors zal hebben.

Verwijderd schreef op maandag 25 november 2013 @ 21:02:
Dat kan wel enorm veel uitmaken, afhankelijk van hoe je de RAID hebt aangemaakt: op de ruwe devices of op partities.

Als de ruwe device is gebruikt, is er geen sdc1.

RAID metadata wordt normaliter in de laatste sector weggeschreven.

Dat is in dit geval waar (metadata 0.9), maar mag je tegenwoordig niet zonder meer meer aannemen.

quote: mdadm man page
-e, --metadata=
Declare the style of RAID metadata (superblock) to be used. The default is 1.2 for --create, and to guess for other operations. The default can be overridden by setting the metadata value for the CREATE keyword in mdadm.conf.

Options are:
0, 0.90

Use the original 0.90 format superblock. This format limits arrays to 28 component devices and limits component devices of levels 1 and greater to 2 terabytes. It is also possible for there to be confusion about whether the superblock applies to a whole device or just the last partition, if that partition starts on a 64K boundary.
1, 1.0, 1.1, 1.2 default

Use the new version-1 format superblock. This has fewer restrictions. It can easily be moved between hosts with different endian-ness, and a recovery operation can be checkpointed and restarted. The different sub-versions store the superblock at different locations on the device, either at the end (for 1.0), at the start (for 1.1) or 4K from the start (for 1.2). "1" is equivalent to "1.2" (the commonly preferred 1.x format). "default" is equivalent to "1.2".

De huidge standaard is aan het begin.

Overigens is de plaats van het superblock in dit geval niet relevant, aangezien mijn voorstel was om de array opnieuw aan te maken, met dezelfde settings. De superblokken worden dan overschreven.

al werkt dit prima onder BSD omdat binnen de container de partitietabel ook gewoon werkt. Geen idee of dat onder Linux het geval is.

Hangt van de kernel config af. Je kunt het scannen naar partitietabellen van 'nieuwe blockdevices' als loop- en md devices expliciet aan- of uitzetten. Geen idee wat 'de standaard' is.

dinsdag 26 november 2013 11:17

Acties:

Matis

Rubber Rocket

Topicstarter

Bedank voor je toelichting. Ik draai alleen nog Version 0.90 (Ubuntu 10.04 heeft de RAID gemaakt). Al is het niet echt meer nodig, vol trots presenteer ik u:

hemy@hemy-server:~$ cat /proc/mdstat 
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10] 
md0 : active raid5 sdc1[2] sdb1[1] sdd1[3] sda1[0]
      5857345344 blocks level 5, 64k chunk, algorithm 2 [4/4] [UUUU]
      
unused devices: <none>

En natuurlijk mdadm zelf

hemy@hemy-server:~$ sudo mdadm --detail dev/md0                                                                                                                                   
[sudo] password for hemy: 
/dev/md0:
        Version : 0.90
  Creation Time : Wed Oct  9 16:35:12 2013
     Raid Level : raid5
     Array Size : 5857345344 (5586.00 GiB 5997.92 GB)
  Used Dev Size : 1952448448 (1862.00 GiB 1999.31 GB)
   Raid Devices : 4
  Total Devices : 4
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Tue Nov 26 11:10:55 2013
          State : clean 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 64K

           UUID : c24f6ac8:a948ba7c:b8756c74:3dd5f86e (local to host fileserver)
         Events : 0.531

    Number   Major   Minor   RaidDevice State
       0       8        1        0      active sync   /dev/sda1
       1       8       17        1      active sync   /dev/sdb1
       2       8       33        2      active sync   /dev/sdc1
       3       8       49        3      active sync   /dev/sdd1

[ Voor 62% gewijzigd door Matis op 26-11-2013 11:19 ]

If money talks then I'm a mime
If time is money then I'm out of time

dinsdag 26 november 2013 15:19

Acties:

Verwijderd

Mijzelf schreef op dinsdag 26 november 2013 @ 09:40:
Als de ruwe device is gebruikt, is er geen sdc1.

Dat is de grap, die is er wel!

Neen simpel voorbeeld met een RAID0 van twee disks. Je hebt de RAID op de hele devices (sda en sdb) gemaakt. Nu ga je de RAID-volume partitioneren en heb je partities op je RAID array.

Echter, kijk je nu naar de schijven sda en sdb, dan zie je op één van deze schijven ook een partitietabel. Dat is niet zo heel vreemd: als de partitietabel op de RAID set staat, staat hij ook aan het begin van één van de twee disks. Dus het is normaal dat je op één van de RAID-disks (ook bij RAID5) wel degelijk een partitietabel ziet op de disk ook al heb je de RAID op hele devices gemaakt.

Onder BSD verdwijnen diepere GEOM-chains zodra je een onderliggend apparaat gebruikt. Dus in het voorbeeld hierboven met sda en sdb zie je voordat je RAID driver actief is wel de partities zoals sda1 en sda2, enz. Maar zodra de RAID driver actief wordt en sda en sdb in gebruik worden genomen, verdwijnen de sda1 en dieper gelegen GEOM-modules. De partitietabel is daarna enkel nog te zien via de RAID array (/dev/stripe/stripe0p1).

Dat is in dit geval waar (metadata 0.9), maar mag je tegenwoordig niet zonder meer meer aannemen.
De huidge standaard is aan het begin.

Goede info, dat wist ik nog niet. Overigens wel een smerig ontwerp om bij elke metadata versie een andere locatie te kiezen; wat is daar het nut van? Kan alleen maar voor problemen zorgen. Zeker gezien bijna alle RAID-implementaties hun metadata in de laatste sector opslaan, is het mooi als je je aan die conventie houdt en niet op 4 verschillende plekken dat gaat opslaan afhankelijk van welke metadata-versie je gebruikt. Wie heeft dat bedacht?

Overigens is de plaats van het superblock in dit geval niet relevant, aangezien mijn voorstel was om de array opnieuw aan te maken, met dezelfde settings. De superblokken worden dan overschreven.

Dat is zeker bij RAID5 erg gevaarlijk. Aangenomen dat je RAID-level en stripesize goed hebt, kan de disk order ook veranderd zijn. Nog erger is dat het een 'alles of niets' operatie is. Zodra de rebuild start is er geen weg meer terug. Dus stel je doet dit maar de disk order is anders dan de 1e keer wanneer de RAID is aangemaakt, dan heb je een corrupt RAID volume. Je kunt daarna niet zomaar meer andere combinaties proberen, omdat de rebuild die start de huidige data zal corrumperen.

Kortom, dit is erg gevaarlijk. Echter als alle instellingen gelijk zijn (en dus ook metadata-versie/locatie.. pff) dan kan het inderdaad lukken. Maar dit zou ik zelf nooit aanraden zonder een megagrote waarschuwing erbij. Zeker mensen die geen backup hebben is het een makkelijke manier om al je gegevens met één commando te vernietigen.

dinsdag 26 november 2013 15:45

Acties:

Mijzelf

Verwijderd schreef op dinsdag 26 november 2013 @ 15:19:
[...]

Dat is de grap, die is er wel!

Boeiend. Ik moet eerlijk zeggen dat ik geen idee heb wat Linux hier doet. Het lijkt ook weinig nuttig om een raid array te partitioneren.

Overigens wel een smerig ontwerp om bij elke metadata versie een andere locatie te kiezen; wat is daar het nut van?

Tja. Voortschrijdend inzicht enzo, neem ik aan. 0.90 en 1.0 staan aan het eind, 1.1 aan het begin, en 1.2 begin + 4k. Er is zeker wat voor te zeggen om de metadata aan het begin te zetten. Je hebt bijvoorbeeld geen last van een 'lekkende' partitietabel

en een lowlevel kopie naar een schijf van andere grootte heeft geen gevolg voor de metadata.
Ik denk dat toen versie 1.1 uitkwam bleek dat er toch problemen mee waren. (Software die zomaar een bootsector wegschrijft ofzo), en dus begin + 4k. Kun je er een complete GPT voorplakken zonder je metadata te vernietigen.

Dat is zeker bij RAID5 erg gevaarlijk. Aangenomen dat je RAID-level en stripesize goed hebt, kan de disk order ook veranderd zijn. Nog erger is dat het een 'alles of niets' operatie is. Zodra de rebuild start is er geen weg meer terug.

Er vind geen rebuild plaats. Als je een array creëert met --assume-clean, dan wordt er niet gerebuild. Pas als je gaat schrijven word voor de beschreven blokken een nieuwe parity berekent (en geschreven).
Dus je kunt rustig alle volgordes uitproberen, zolang je maar read-only mount.
Het is wèl tamelijk belangrijk dat je de juiste metadata versie kiest, uiteraard. Maar die was hier duidelijk.

zaterdag 30 november 2013 09:21

Acties:

Matis

Rubber Rocket

Topicstarter

Na een kleine week van gebruiken (niet stresstesten), is het aantal CRC fouten gelijk gebleven. Er zitten momenteel 3 (potentieel) slechte en 1 (bewezen) goede SATA kabels op de disks aangesloten.
Ik "hoop" eigenlijk dat binnenkort een van de drie disks het begeeft, met CRC fouten en dat alleen met het vervangen van de SATA-kabel, het probleem verholpen zou moeten zijn.

If money talks then I'm a mime
If time is money then I'm out of time

zondag 1 december 2013 09:33

Acties:

Matis

Rubber Rocket

Topicstarter

Vannacht kreeg ik een mailtje dat er wederom een schijf uit mijn systeem geknald was. Ik heb zojuist de SMART gegevens van alle disks uitgelezen en hieruit bleek het volgende:

Sun Dec  1 09:01:48 CET 2013
sda
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       189
sdb
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0036   099   099   000    Old_age   Always       -       791
sdc
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       3
sdd
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   199   000    Old_age   Always       -       163

Zoals mdadm zelf al aangaf bij de foutmelding, heeft sdc 3 crc errors gegeven
de dmesg geeft de volgende foutmeldingen

hemy@hemy-server:~$ cat /var/log/kern.log | grep ata3
Dec  1 08:27:03 hemy-server kernel: [469762.733398] ata3.00: exception Emask 0x50 SAct 0x0 SErr 0x280900 action 0x6 frozen
Dec  1 08:27:03 hemy-server kernel: [469762.733411] ata3.00: irq_stat 0x08000000, interface fatal error
Dec  1 08:27:03 hemy-server kernel: [469762.733422] ata3: SError: { UnrecovData HostInt 10B8B BadCRC }
Dec  1 08:27:03 hemy-server kernel: [469762.733432] ata3.00: failed command: SMART
Dec  1 08:27:03 hemy-server kernel: [469762.733448] ata3.00: cmd b0/d5:01:00:4f:c2/00:00:00:00:00/00 tag 0 pio 512 in
Dec  1 08:27:03 hemy-server kernel: [469762.733459] ata3.00: status: { DRDY }
Dec  1 08:27:03 hemy-server kernel: [469762.733472] ata3: hard resetting link
Dec  1 08:27:03 hemy-server kernel: [469763.224036] ata3: softreset failed (device not ready)
Dec  1 08:27:03 hemy-server kernel: [469763.224050] ata3: applying PMP SRST workaround and retrying
Dec  1 08:27:03 hemy-server kernel: [469763.396042] ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Dec  1 08:27:03 hemy-server kernel: [469763.397197] ata3.00: configured for UDMA/33
Dec  1 08:27:03 hemy-server kernel: [469763.412110] ata3: EH complete

Ik heb het systeem uitgezet. De juiste SATA kabel vervangen en daarna het systeem weer aangezet.
De array is nu weer aan het syncen.

If money talks then I'm a mime
If time is money then I'm out of time

zondag 1 december 2013 11:42

Acties:

rikadoo

Ik zou gewoon even 4 goede kabels kopen op internet of bij de plaatselijke PC boer. Dan ben je van dit gedoe af en het rebuilden. Anders blijf je aan de gang. Straks gaat het echt een keer fout...

zondag 1 december 2013 13:31

Acties:

Q

Au Contraire Mon Capitan!

Voor dat syncen, kijk hier even naar om dit wat te versnellen:

http://louwrentius.com/sp...d-time-using-bitmaps.html

zondag 1 december 2013 14:13

Acties:

Wim-Bart

Zie signature voor een baan.

Zit met interesse mee te lezen en kom uiteindelijk tot de zelfde conclusie, wat mij op valt is dat het vaak toch de kabels zijn, met name de meegeleverde kabels. Zo had ik met mijn Gigabyte Board meegeleverde kabels welke zelfde probleem veroorzaken. Een disk vervangen, deze kwam terug van WD met de melding dat deze niet defect was.

Ik denk dat SATA kabels als prio 1 moeten staan bij checken van problemen. Zo veel errors en het lijkt wel of ze steeds slechter worden. Toch vraag ik me af waar je op moet letten bij aanschaf kabels, want vaak weet je gewoon niet wat je krijgt. En is een 1 euro kabel zo veel slechter dan een 5 euro kabel. Hoe herkennen we de kwaliteit van de kabel????

Beheerders, Consultants, Servicedesk medewerkers. We zoeken het allemaal. Stuur mij een PM voor meer info of kijk hier De mooiste ICT'er van Nederland.

zondag 1 december 2013 23:36

Acties:

Matis

Rubber Rocket

Topicstarter

rikadoo schreef op zondag 01 december 2013 @ 11:42:
Ik zou gewoon even 4 goede kabels kopen op internet of bij de plaatselijke PC boer. Dan ben je van dit gedoe af en het rebuilden. Anders blijf je aan de gang. Straks gaat het echt een keer fout...

Klopt, maar ik wilde even zeker zijn dat alleen het vervangen van de kabel de "kapotte" disk weer heelt. Dat is nu gebleken. Ik ga morgen als de gesmeerde bliksem goede kabels bestellen.
Al weet ik niet waar ik op moet letten bij de aanschaf van SATA kabels. Hoe onderscheid ik de goede van de kwade?

Q schreef op zondag 01 december 2013 @ 13:31:
Voor dat syncen, kijk hier even naar om dit wat te versnellen:

http://louwrentius.com/sp...d-time-using-bitmaps.html

Qool, thanks! Rebuilden duurt bij mij al snel 9 uur, dus hoe sneller hoe beter. Hoe groot kan zo'n bitmap worden? Anders parkeer ik deze file op mijn OS-disk.

Wim-Bart schreef op zondag 01 december 2013 @ 14:13:
Zit met interesse mee te lezen en kom uiteindelijk tot de zelfde conclusie, wat mij op valt is dat het vaak toch de kabels zijn, met name de meegeleverde kabels. Zo had ik met mijn Gigabyte Board meegeleverde kabels welke zelfde probleem veroorzaken. Een disk vervangen, deze kwam terug van WD met de melding dat deze niet defect was.

Ik weet niet zeker meer hoe ik aan al die SATA-kabels ben gekomen. Een aantal exotische heb ik zelf aangeschaft. De rest zat waarschijnlijk bij moederborden of andere randapparatuur.

Ik denk dat SATA kabels als prio 1 moeten staan bij checken van problemen. Zo veel errors en het lijkt wel of ze steeds slechter worden. Toch vraag ik me af waar je op moet letten bij aanschaf kabels, want vaak weet je gewoon niet wat je krijgt. En is een 1 euro kabel zo veel slechter dan een 5 euro kabel. Hoe herkennen we de kwaliteit van de kabel????

Ik heb denk ik wel 50 SATA-kabels ongebruikt. Waarvan er nog zeker 15 in de verpakking zitten. Maar ik kan echt niet toetsen of deze kabels wel goed zijn.

If money talks then I'm a mime
If time is money then I'm out of time

maandag 2 december 2013 10:44

Acties:

Mijzelf

Matis schreef op zondag 01 december 2013 @ 23:36:
Hoe groot kan zo'n bitmap worden? Anders parkeer ik deze file op mijn OS-disk.

Voor zover ik weet 1 bit per chunk. Een chunk is 64kB op jouw systeem, dus reken maar uit.

De file op je OS disk is zowiezo een goed idee, in verband met random access tijd. Voor en na iedere schrijfactie wordt de bitmap geupdate. Fijn als dat met een andere kop kan,

zondag 30 maart 2014 21:29

Acties:

Matis

Rubber Rocket

Topicstarter

Daar ben ik weer

Zojuist kreeg ik de melding dat mijn RAID5, na een onwaarschijnlijk lange tijd van maar liefst 4 maanden, degreded was.
Meteen het scriptje gedraaid om te controleren op de UDMA_CRC_Error_Count. Voor de sda was deze waarde ineens met 4 gestegen.

Sun Mar 30 21:24:38 CEST 2014
sda
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       193
sdb
197 Current_Pending_Sector  0x0032   252   252   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0036   099   099   000    Old_age   Always       -       792
sdc
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       3
sdd
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
199 UDMA_CRC_Error_Count    0x0032   200   199   000    Old_age   Always       -       163

De extra error die er bij is gekomen op sdb, dateert al van een grotere tijd geleden en heeft (gelukkig) niet geleid tot een falende array.
Saillant detail: Zowel sda als sdb zijn beide nog met een slechte SATA-kabel verbonden met mijn moederbord. Dit blijft dus pleiten voor een juiste conclusie. Dat niet de HDDs, maar de kabels slecht waren.

Wel wil ik graag weten wat wijsheid is om nu te doen. Zijn er SATA-kabels, welke jullie adviseren aan te schaffen om te gebruiken?

[ Voor 34% gewijzigd door Matis op 30-03-2014 21:30 ]

If money talks then I'm a mime
If time is money then I'm out of time