Troubleshooting en oorzaak ZFS cksum errors

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Bij het periodiek onregelmatig nakijken van mijn zpool status kwam vandaag het volgende terug:

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 24K in 7h43m with 0 errors on Sun Jan 17 09:43:33 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-XXXXXXXX   ONLINE       0     0     0
            disk2-XXXXXXXX   ONLINE       0     0     0
            disk3-XXXXXXXX   ONLINE       0     0     0
            disk4-XXXXXXXX   ONLINE       0     0     1
            disk5-XXXXXXXX   ONLINE       0     0     1
            disk6-XXXXXXXX   ONLINE       0     0     1
            disk7-XXXXXXXX   ONLINE       0     0     1
            disk8-XXXXXXXX   ONLINE       0     0     1
            disk9-XXXXXXXX   ONLINE       0     0     1
            disk10-XXXXXXXX  ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0


NAS draait op volgende hardware:


Intel Xeon E3-1230
Supermicro X9SCA-F
Kingston KVR1333D3E9SK2/16G


ZFS pool bestaat uit 10 disks van het type Seagate Desktop HDD.15 (OEM), 4TB .

Ik weet niet of het er mee gerelateerd is, maar ik vermeld het maar: de laatste tijd (dagen/weken/max 2 maanden ofzo) merkte ik wel dat het starten van een film of serie van de HTPC relatief lang duurde, langer dan ik gewend was om 10 disks op te laten spinnen. Dat even terzijde, is totaal een buikgevoel maar ik geef het maar even mee.

Ik scrubde tot voor kort wekelijks, maar sinds de herfst/winter van 2015 heb ik dat regime aangepast naar maandelijks.

Als ik terug in Ubuntu boot kan ik over een langere periode SMART-waardes posten van alle disks in de volgende vorm:

-----------------------------------------------------------------------------------------------------------------
| Dev | Model                     | Serial Number        | GB   | Firmware | Temp | Hours | PS | RS | RSE | CRC |
-----------------------------------------------------------------------------------------------------------------
| sda | ST4000DM000-1F2168        | XXXXXXXX             | 4000 | CC52     | 20   | 8038  | 0  | 0  | ?   | 0   |


Die SMART waardes worden per dag opgeslagen en onbeperkt bijgehouden voorlopig.


Ondertussen heb ik de NAS al even afgesloten en loopt er een Memtest86+ tot nader order.

Iemand een ideetje waar dit aan zou kunnen liggen? Mag ik stevig wat budget gaan reserveren om hardware te gaan vervangen of loopt het nog niet zo een vaart?

[ Voor 15% gewijzigd door HyperBart op 19-01-2016 16:09 ]

Beste antwoord (via HyperBart op 08-12-2020 10:43)


  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Wat heb je nu precies aangepast wat kan verklaren dat je scrubs nu geen checksum errors meer geven?

Heb je de spindown uitgeschakeld? Is dat nu de conclusie, dat spindown deze issues geeft?

Alle reacties


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Ben benieuwd wat je Memtest gaat vinden, zo te zien draai je met ECC geheugen. Met ECC zou je ofwel geen CRC errors mogen zien ondanks bitfouen ofwel was je machine geklapt. Maar wie weet.

Op wat voor controller zitten die disks? Allemaal op de zelfde controller/HBA of deels op HBA en deels on-board op het moederbord?

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Gesplitst, ik heb 2 x M1015 waar de disks op hangen en bij het builden samen met FireDrunk hebben we er over gewaakt om goed uit te splitsen. Als de server straks af staat (of bij voorkeur via een commando/tooltje) wil ik anders wel eens kijken welke disks op welke controller hangen. Ik ga liever nu niet wiggelen met kabels om onbedoelde kabelfouten te introduceren.

Zodadelijk eens kijken met /dev/disk-by/.....

Ik ben er ook heel benieuwd naar, want ik draai inderdaad met ECC maar ik heb nergens problemen gehad. Downloads kwamen goed binnen, shell was responsief, machine heeft geen spontane reboots oid gehad (dat heb ik trouwens onmiddellijk door want ik start mijn services allemaal manueel en moet mijn pools manueel importeren).

Memtest is ondertussen op 62% algemeen en met test #8 [Modulo 20, Random Pattern] bezig en ik heb nog geen errors gezien.

[ Voor 17% gewijzigd door HyperBart op 19-01-2016 17:27 ]


Acties:
  • +1 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Het zijn 6 disks die errors geven dus als je 5 disks op controller 1 hebt en 5 op de ander dan is het zeer waarschijnlijk niet controller-specifiek.

Ik zou ook eens kijken / voelen hoe warm die controllers worden. De M1015 wordt pittig warm en ik heb er van het begin af aan een fan er direct boven hangen (ik draai met drie stuks).

Is er recent iets veranderd aan je setup betteffende disk sleep? Niet echt relevant als dit issue naar boven kwam door een scrub.

[ Voor 16% gewijzigd door Q op 19-01-2016 17:29 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Die krengen zijn inderdaad heel warm (kan er de buitenkant van mijn vingers niet langer als een seconde tegenhouden)

6 disks op één controller kan normaal niet 5/3 wil ik nog makkelijk geloven maar 6/2 lijkt me wat te fel in onbalans.

Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Hmm. Ik zou zeker een mooie 80mm fan boven die controllers hangen. Had precies het zelfde issue met mijn high-point rocketraid kaarten. 1 faalde zelfs een keer door gebrek aan koeling jaren terug.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Ik had er een tijdje zijdelings een fan op hangen, maar die kon bijna niks aanzuigen omdat die zo goed als tegen het zijpaneel zat van de Fractal kast waar de NAS in zit, aangezien het dingetje best wel wat lawaai maakte en ik het idee had dat het niets afdeed heb ik die losgekoppeld.

Ik heb zonet even een grove inventaris gemaakt en van de 6 disks die fouten hadden zitten er 3 al op de bovenste controller, 2 heb ik niet kunnen tracen naar waar ze gaan en 1 hangt op de onderste controller.

Dat er slechts één controller defect is kunnen we dus al uitsluiten. 2 kan nog altijd maar daar ga ik even niet van uit.

[ Voor 10% gewijzigd door HyperBart op 19-01-2016 17:49 ]


Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Volgens mij hebben we 6 om 4 gedaan, en je ssds over de rest van de aansluitingen verdeeld.

Check even dmesg, /var/log/messages en kernel.log

Even niets...


Acties:
  • 0 Henk 'm!

  • jbhc
  • Registratie: Juli 2007
  • Laatst online: 11-09 11:03
Zijn het identieke schijven?
Bij mij is er ook wel eens een raid1 stuk gegaan met 2 identieke schijven die nagenoeg op hetzelfde moment de geest gaven.
Ik zorg er nu dus ook voor dat mijn schijven in ieder geval uit verschillende batches komen.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Het zijn identieke schijven ja, maar wel in twee grote batches gekocht.

Ik ben van 5 x 3tb naar 5 x 4tb naar (5+5) x 4tb gegaan.

Net om simultaan falen statistisch wat uit te sluiten.

Memtest is bijna voltooid, zit op 94% heeft zonet volledig een pass voltooid zonder ECC errors of gewone errors op 2h35 minuten voor 32GB over 4 latjes.

Binnen een uurtje ga ik met FireDrunk aan de slag en morgen laat ik sowieso door de dag nog een paar Memtest runs lopen om dat toch met wat meer zekerheid uit te sluiten.

[ Voor 47% gewijzigd door HyperBart op 19-01-2016 18:18 ]


Acties:
  • 0 Henk 'm!

  • rikadoo
  • Registratie: Oktober 2007
  • Niet online
Heb verder niet heel veel verstand van ZFS dus daar houd ik me even buiten, maar is het niet altijd beter om memtest een hele nacht of iig een 10tal uur te laten draaien?

AMD Ryzen 7 5900x | Custom WC | ASUS ROG Strix X570-E Gaming | 32GB Corsair DDR4-3600MHz | Samsung 970 nvme 1TB | Samsung 860 EVO 2TB | AMD RX 6900XT 16GB | 1x Asus RoG XG27AQDMG | 1x LG UltraGear 27GL850


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Correct, daarom dat ik het morgen doorheen de dag ook ga laten draaien (of als ik gedaan heb met FD vanavond al en dan neem ik de nacht erbij). Maar het geeft toch al een goede indicatie. Als ik nu al errors zag dan moesten we niet veel verder gaan zoeken.
Moet eens kijken of ik dat kan afzetten maar bij iedere test die hij voltooid geeft hij ook een beepje en met onze slaapkamer er langs in een oud huis is dat nogal storend als het in de nacht staat te kachelen ;) .

[ Voor 4% gewijzigd door HyperBart op 19-01-2016 18:31 ]


Acties:
  • 0 Henk 'm!

  • ph0t0nix
  • Registratie: December 2006
  • Laatst online: 25-08 09:23
Misschien niet meer zo relevant na je memtest runs, maar bij de Supermicro borden wat ik ervaring mee heb werden ECC errors altijd in de IPMI event log geschreven. Daar kun je evt. dus ook nog kijken.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Goed, na een aangename 3h troubleshooten met FireDrunk en wat correctieve acties uitgezet te hebben gisterenavond toch de server maar terug "in productie" gezet.

Onze bevindingen:

In de logging zagen we volgende meldingen een paar keer voorbij komen:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Jan 18 19:13:16 nas kernel: [529916.176228] sd 7:0:2:0: [sdj]
Jan 18 19:13:16 nas kernel: [529916.176234] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:16 nas kernel: [529916.176237] sd 7:0:2:0: [sdj] CDB:
Jan 18 19:13:16 nas kernel: [529916.176239] Read(16): 88 00 00 00 00 00 e7 02 3f a0 00 00 00 08 00 00
Jan 18 19:13:16 nas kernel: [529916.176252] end_request: I/O error, dev sdj, sector 3875684256
Jan 18 19:13:26 nas kernel: [529925.791318] sd 7:0:3:0: [sdk]
Jan 18 19:13:26 nas kernel: [529925.791323] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:26 nas kernel: [529925.791326] sd 7:0:3:0: [sdk] CDB:
Jan 18 19:13:26 nas kernel: [529925.791328] Read(16): 88 00 00 00 00 00 e7 02 3f a0 00 00 00 08 00 00
Jan 18 19:13:26 nas kernel: [529925.791340] end_request: I/O error, dev sdk, sector 3875684256
Jan 18 19:13:26 nas kernel: [529926.033323] sd 0:0:3:0: [sdd]
Jan 18 19:13:26 nas kernel: [529926.033328] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:26 nas kernel: [529926.033330] sd 0:0:3:0: [sdd] CDB:
Jan 18 19:13:26 nas kernel: [529926.033332] Read(16): 88 00 00 00 00 00 e7 02 4f 98 00 00 00 08 00 00
Jan 18 19:13:26 nas kernel: [529926.033344] end_request: I/O error, dev sdd, sector 3875688344
Jan 18 19:13:36 nas kernel: [529935.593709] sd 0:0:5:0: [sdf]
Jan 18 19:13:36 nas kernel: [529935.593714] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:36 nas kernel: [529935.593716] sd 0:0:5:0: [sdf] CDB:
Jan 18 19:13:36 nas kernel: [529935.593718] Read(16): 88 00 00 00 00 01 2c d1 f0 98 00 00 00 08 00 00
Jan 18 19:13:36 nas kernel: [529935.593730] end_request: I/O error, dev sdf, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.761543] sd 0:0:0:0: [sda]
Jan 18 19:13:55 nas kernel: [529954.761548] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:55 nas kernel: [529954.761551] sd 0:0:0:0: [sda] CDB:
Jan 18 19:13:55 nas kernel: [529954.761553] Read(16): 88 00 00 00 00 01 2c d1 f0 98 00 00 00 08 00 00
Jan 18 19:13:55 nas kernel: [529954.761565] end_request: I/O error, dev sda, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.763810] sd 0:0:1:0: [sdb]
Jan 18 19:13:55 nas kernel: [529954.763812] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:55 nas kernel: [529954.763814] sd 0:0:1:0: [sdb] CDB:
Jan 18 19:13:55 nas kernel: [529954.763815] Read(16): 88 00 00 00 00 01 2c d1 f0 98 00 00 00 08 00 00
Jan 18 19:13:55 nas kernel: [529954.763825] end_request: I/O error, dev sdb, sector 5046923416
Jan 18 19:14:29 nas kernel: [529988.893033] sd 0:0:2:0: [sdc]
Jan 18 19:14:29 nas kernel: [529988.893039] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:29 nas kernel: [529988.893042] sd 0:0:2:0: [sdc] CDB:
Jan 18 19:14:29 nas kernel: [529988.893044] Read(16): 88 00 00 00 00 01 19 e1 f1 98 00 00 00 20 00 00
Jan 18 19:14:29 nas kernel: [529988.893056] end_request: I/O error, dev sdc, sector 4729205144
Jan 18 19:14:29 nas kernel: [529988.895377] sd 0:0:4:0: [sde]
Jan 18 19:14:29 nas kernel: [529988.895379] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:29 nas kernel: [529988.895381] sd 0:0:4:0: [sde] CDB:
Jan 18 19:14:29 nas kernel: [529988.895382] Read(16): 88 00 00 00 00 01 19 e2 01 98 00 00 00 20 00 00
Jan 18 19:14:29 nas kernel: [529988.895392] end_request: I/O error, dev sde, sector 4729209240
Jan 18 19:14:48 nas kernel: [530007.860877] sd 7:0:0:0: [sdh]
Jan 18 19:14:48 nas kernel: [530007.860883] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:48 nas kernel: [530007.860885] sd 7:0:0:0: [sdh] CDB:
Jan 18 19:14:48 nas kernel: [530007.860887] Read(16): 88 00 00 00 00 01 19 e1 f1 98 00 00 00 20 00 00
Jan 18 19:14:48 nas kernel: [530007.860900] end_request: I/O error, dev sdh, sector 4729205144
Jan 18 19:14:48 nas kernel: [530007.863249] sd 7:0:1:0: [sdi]
Jan 18 19:14:48 nas kernel: [530007.863251] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:48 nas kernel: [530007.863253] sd 7:0:1:0: [sdi] CDB:
Jan 18 19:14:48 nas kernel: [530007.863255] Read(16): 88 00 00 00 00 01 19 e1 f1 98 00 00 00 20 00 00
Jan 18 19:14:48 nas kernel: [530007.863265] end_request: I/O error, dev sdi, sector 4729205144



Initieel vonden we dit wel een beetje vreemd, zeker op 6 disks tegelijk. De 6 disks hangen verspreid over 2 controllers. Het leek ons sterk dat de 6 disks tegelijk allemaal een error geven. De common factor is het feit dat ze via dezelfde types (maar wel twee exemplaren van) controller ge-accessed worden en dat die controllers dus ook dezelfde driver delen. Een ECC fout is zo goed als uitgesloten omdat de de fout dan ook op andere pools had moeten voorkomen waarbij de devices rechtstreeks op het moederbord hangen zoals bv. mijn EVO500 waar tijdens de scrub ook downloads op binnen kwamen . PCIe is ook met ECC beschermd dus vanaf de controller kan het misgaan volgens ons.

We kunnen het niet hard bewijzen maar volgens FD kon het issue wel eens liggen bij een bokkende controller waardoor de gedeelde driver ook even zat te blokkeren. Verder viel tijdens het troubleshooting opeens op dat een van de controllers (een Dell) nog in IR mode stond, dat hebben we gisteren dus ook gecorrigeerd, beide controllers draaien nu op P19 en in IT mode zonder BIOS.

Deze nacht heeft er nog eens een scrub gelopen, zonder issues. We houden ons aanbevolen als iemand tips of ideeën heeft over andere oorzaken of oplossingen.

EDIT: Ik heb ondertussen nog eens een scrub gestart en zal dit ook een paar keer blijven doen doorheen de volgende weken, gewoon, om te testen.

Acties:
  • 0 Henk 'm!

Verwijderd

Heb je beide HBA's hard op diverse IRQ's gezet?

Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Ik denk dat bovenstaande een mooie analyse is en ik denk dat het inderdaad iets met de controllers/driver is geweest.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Verwijderd schreef op woensdag 20 januari 2016 @ 10:42:
Heb je beide HBA's hard op diverse IRQ's gezet?
Neen? Ik wil dat gerust doen, maar ik zie de nood er nog niet van aangezien het BIOS die netjes heeft uitgedeeld, het is niet dat ik de M1015 in een VM heb doorgegeven en dat hij daar wat in de knoop ligt met IRQ's (iets wat nog wel eens voorkomt met VM en passthrough controllers).

bart@nas:~$ cat /proc/interrupts | grep -i sas
 43:  163958957  164363921  144260590    2492418          0          0          0          0  IR-PCI-MSI-edge      mpt2sas0-msix0
 47:  146985962  152347131  165532498     313078          0          0          0          0  IR-PCI-MSI-edge      mpt2sas1-msix0
bart@nas:~$ cat /proc/interrupts | grep -i 43:
 43:  163976405  164363921  144339123    2492418          0          0          0          0  IR-PCI-MSI-edge      mpt2sas0-msix0
bart@nas:~$ cat /proc/interrupts | grep -i 47:
 47:  147024326  152425506  165532498     313078          0          0          0          0  IR-PCI-MSI-edge      mpt2sas1-msix0
Q schreef op woensdag 20 januari 2016 @ 10:57:
Ik denk dat bovenstaande een mooie analyse is en ik denk dat het inderdaad iets met de controllers/driver is geweest.
Mja, ik begin er ook naar te neigen. Ik vind het wel frappant, ik had nooit verwacht daar ergens fouten te zien gebeuren (die ZFS dan wel heel fijn gedetecteerd heeft) maar eerder op de disks. Punt blijft wel nog altijd dat ZFS het heel fijntjes opgemerkt heeft en het ook on-the-fly gerepareerd heeft en dit over 6 disks tegelijk. Ok, daarom niet op alle disks in dezelfde strip en uiteindelijk was het maar 24K, maar als die 24K op verkeerde plekken was gevallen dan denk ik dat een traditionele RAID had gebokt :/ .

[ Voor 55% gewijzigd door HyperBart op 20-01-2016 11:41 ]


Acties:
  • +1 Henk 'm!

  • vanaalten
  • Registratie: September 2002
  • Laatst online: 21:38
HyperBart schreef op woensdag 20 januari 2016 @ 09:56:
code:
1
2
3
4
5
6
7
8
9
10
11
<manually sorted & grepped:>
Jan 18 19:13:16 nas kernel: [529916.176252] end_request: I/O error, dev sdj, sector 3875684256
Jan 18 19:13:26 nas kernel: [529925.791340] end_request: I/O error, dev sdk, sector 3875684256
Jan 18 19:13:26 nas kernel: [529926.033344] end_request: I/O error, dev sdd, sector 3875688344
Jan 18 19:13:36 nas kernel: [529935.593730] end_request: I/O error, dev sdf, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.761565] end_request: I/O error, dev sda, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.763825] end_request: I/O error, dev sdb, sector 5046923416
Jan 18 19:14:29 nas kernel: [529988.893056] end_request: I/O error, dev sdc, sector 4729205144
Jan 18 19:14:48 nas kernel: [530007.860900] end_request: I/O error, dev sdh, sector 4729205144
Jan 18 19:14:48 nas kernel: [530007.863265] end_request: I/O error, dev sdi, sector 4729205144
Jan 18 19:14:29 nas kernel: [529988.895392] end_request: I/O error, dev sde, sector 4729209240


Initieel vonden we dit wel een beetje vreemd, zeker op 6 disks tegelijk. De 6 disks hangen verspreid over 2 controllers. Het leek ons sterk dat de 6 disks tegelijk allemaal een error geven.
Ik weet niet wat je met 'dit' precies bedoelde, maar het valt mij op dat je dezelfde sectorwaarde bij meerdere disks voorbij ziet komen. Lijkt mij sterk dat sda, sdb en sdf tegelijk kapot gaan en nog wel op dezelfde sector ook, om maar wat te noemen.

Niet dat ik nou wat nieuws vertel, enkel even een uitgebreide post om het met je eens te zijn dat het waarschijnlijk niet aan de disks zelf ligt. :)

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Na de reboots dacht ik nog even te zorgen dat ze terug netjes in spindown gaan, dus manueel even mijn disks met een rits aan hdparm commando's op 20 min gezet, moet ik sinds een tijdje altijd manueel doen na een reboot ipv dat ze ingeladen worden via hdparm.conf.

Ik dacht om ze dan ook even manueel in spindown te sturen (doe ik wel vaker na een reboot) met mijn alias die ik daarvoor heb maar realiseerde me even niet meer dat er nog een scrub liep. Op zich geen probleem, heb ik ooit nog gedaan en dat gaf toen geen problemen (iemand mag altijd eens even testen). Toen ik het realiseerd dat er nog een scrub liep (hij had ondertussen al een stuk of 4 disks in spindown gestuurd denk ik) heb ik met CTRL - C even geannuleerd.

En zonet zag ik dus:

  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Wed Jan 20 10:16:23 2016
    15.5T scanned out of 20.1T at 690M/s, 1h55m to go
    32K repaired, 77.37% done
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     0  (repairing)
            disk2-xxxxxxxx   ONLINE       0     0     0  (repairing)
            disk3-xxxxxxxx   ONLINE       0     0     0
            disk4-xxxxxxxx   ONLINE       0     0     0
            disk5-xxxxxxxx   ONLINE       0     0     0
            disk6-xxxxxxxx   ONLINE       0     0     0
            disk7-xxxxxxxx   ONLINE       0     0     0
            disk8-xxxxxxxx   ONLINE       0     0     0
            disk9-xxxxxxxx   ONLINE       0     0     0
            disk10-xxxxxxxx   ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0



Geen idee wat er mis gelopen is, ik ben benieuwd naar wanneer scrub gefinished is.

Zie net dat er 32K gerepaired is, had ik eerst even over gekeken.

[ Voor 12% gewijzigd door HyperBart op 20-01-2016 16:58 ]


Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Zal nog wel een restantje zijn van de gebokte controller. In ieder geval even in high alert in de gaten houden.

Even niets...


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Nochtans wel weer twee I/O errors:

Jan 20 16:35:23 nas kernel: [66011.384500] end_request: I/O error, dev sdm, sector 2671657184
Jan 20 16:35:28 nas kernel: [66016.910820] end_request: I/O error, dev sdp, sector 2671657184

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Ok, das nie goed nie....

Even niets...


Acties:
  • 0 Henk 'm!

  • jbhc
  • Registratie: Juli 2007
  • Laatst online: 11-09 11:03
En hoe is het nu met de smart waarden? Ik ben met name benieuwd naar de reallocated sector counts.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Niks mee aan het handje:

-----------------------------------------------------------------------------------------------------------------
| Dev | Model                     | Serial Number        | GB   | Firmware | Temp | Hours | PS | RS | RSE | CRC |
-----------------------------------------------------------------------------------------------------------------

| sdg | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 35   | 8376  | 0  | 0  | ?   | 0   |
| sdh | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 33   | 18152 | 0  | 0  | ?   | 0   |
| sdi | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 33   | 18157 | 0  | 0  | ?   | 0   |
| sdj | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 30   | 9289  | 0  | 0  | ?   | 0   |
| sdk | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 31   | 9286  | 0  | 0  | ?   | 0   |
| sdl | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 29   | 9289  | 0  | 0  | ?   | 0   |
| sdm | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 35   | 18162 | 0  | 0  | ?   | 0   |
| sdn | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 40   | 9289  | 0  | 0  | ?   | 0   |
| sdo | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 39   | 18150 | 0  | 0  | ?   | 0   |
| sdp | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 35   | 18160 | 0  | 0  | ?   | 0   |


Het zijn nu trouwens ook 2 andere disks dan gisteren, even ter info...

[ Voor 13% gewijzigd door HyperBart op 20-01-2016 18:19 ]


Acties:
  • 0 Henk 'm!

  • A1AD
  • Registratie: Juli 2013
  • Laatst online: 27-07 23:41
Je zou is de pool moeten importen in een freebsd variant? Kans is klein, maar toch weer iets dat je kan uitstrepen.

- Deze advertentie is geblokkeerd door Pi-Hole -


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Scrub is voltooid met 0 errors voor READ WRITE of CKSUM, allemaal in orde. Er is wel 32K gerepareerd maar geen enkel device gaf een error.

Ga nu een tweede scrub aftrappen.
A1AD schreef op woensdag 20 januari 2016 @ 18:54:
Je zou is de pool moeten importen in een freebsd variant? Kans is klein, maar toch weer iets dat je kan uitstrepen.
Goh, waterkansje, maar ik kan eventueel wel eens met een ZFSguru Live CD'tje booten ja.

[ Voor 65% gewijzigd door HyperBart op 20-01-2016 22:09 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Weer een scrub met fouten, deze keer heeft disk1 een CKSUM error gegeven.

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 16K in 10h2m with 0 errors on Thu Jan 21 05:09:03 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-XXXXXXXX   ONLINE       0     0     1
            disk2-XXXXXXXX   ONLINE       0     0     0
            disk3-XXXXXXXX   ONLINE       0     0     0
            disk4-XXXXXXXX   ONLINE       0     0     0
            disk5-XXXXXXXX   ONLINE       0     0     0
            disk6-XXXXXXXX   ONLINE       0     0     0
            disk7-XXXXXXXX   ONLINE       0     0     0
            disk8-XXXXXXXX   ONLINE       0     0     0
            disk9-XXXXXXXX   ONLINE       0     0     0
            disk10-XXXXXXXX  ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0


In /var/log/kern.log wel geen errors meer mbt I/O errors.

Ik snap er niks van :/

Acties:
  • 0 Henk 'm!

Verwijderd

denk dat er maar 1 vlak is qua verdachte hardware namelijk de controller(s) en wel om het feit dat 2 disks dezelfde foute sectoren hebben, zag ik ook al en vanaalten meldde het ook nog:
vanaalten schreef op woensdag 20 januari 2016 @ 12:32:
[...]

Ik weet niet wat je met 'dit' precies bedoelde, maar het valt mij op dat je dezelfde sectorwaarde bij meerdere disks voorbij ziet komen. Lijkt mij sterk dat sda, sdb en sdf tegelijk kapot gaan en nog wel op dezelfde sector ook, om maar wat te noemen.
weet niet of je (storage)vriendjes hebt die ter test ende leering de controllers tijdelijk kunnen swappen?

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Heb er nog wel een liggen voor hem, maar hij woont op 90 minuten rijafstand :)

Ik had al het advies om de controller eens in een ander PCIe poortje te plaatsen.

Het zit nu:

x16 fysiek -> x8 praktisch -> Controller A -> Komt van CPU
x8 fysiek -> x4 praktisch -> leeg -> Komt van CPU
x8 fysiek -> x4 praktisch -> Controller B -> komt van Chipset.

Dus controller B 1 poortje omhoog, en dan nog eens testen.

Even niets...


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
FireDrunk heeft nog een controller liggen en had deze al aangeboden ter test.

Indien nodig kan ik ook een paar poorten vrijmaken op mijn moederbord zelf en tezamen met vrije poorten op de overblijvende controller heb ik er genoeg om te draaien op slechts één insteek-controller. Ik zal vanavond een schematische voorstelling posten met serienummers erbij om te illustreren welke disk op welke controller hangt, want de fouten die we zien hebben zich voorgedaan op disks zowel op controller 1 als controller 2. Dat laatste vind ik echt wel raar, tenzij het aan de driver heeft gelegen...(?)

EDIT: Scrub snelheid is er precies ook niet op vooruitgegaan als je vergelijkt met mijn eerste post vs nu en de tussentijdse statistieken van de scrub ergens in het midden :X .

Vanavond maar eens omgooien.

EDIT2: Scrub zit op 85% en tot nog toe geen errors... Nog geen controllers omgewisseld van slot.

[ Voor 20% gewijzigd door HyperBart op 21-01-2016 20:08 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Ondertussen nog eens een scrub laten lopen, deze zat wel weer terug op snelheid, afgetopt op 842MB/s en dit zonder fouten.

Ik heb er nu nog eentje gestart, als die zonder fouten terugkomt vraag ik me af of het wel nog zo zinnig is om de controller om te wisselen? Wil het gerust doen, maar als jullie ook van mening zijn dat het probleem opgelost is dan laat ik het liever zo. Als het uitsluitsel geeft dan graag hoor, maar zoals het nu lijkt heb ik het idee dat ik het in de nabije toekomst niet direct ga tegenkomen.

Wel even een sidenote: beide zijpanelen van de kast zijn nu verwijderd, de disk temperatuur varieert over de 10 disks van 29 tot 38 graden waar het merendeel (5) tussen 32 en 34 zit maar de controllers kan ik natuurlijk niet bepalen.

Acties:
  • 0 Henk 'm!

  • jbhc
  • Registratie: Juli 2007
  • Laatst online: 11-09 11:03
Zijpanelen verwijderen heeft natuurlijk een behoorlijk invloed op de temperatuur :)

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Op disks in alle geval niet, dat kan ik factueel bewijzen dat 'm dat max een graadje ofzo scheelt, met de veranderende temperaturen op die kamer is dat te verwaarlozen, door de dag en 's nachts is het daar ijskoud, alleen 's avonds gaat de verwarming door een defectje daar altijd mee aan.

Op de controllers misschien maar dat kan ik in ieder geval niet bewijzen.

Zal de panelen er eens terug tegen zetten nu.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Enkele dagen en wat scrubs verder.

Vandaag na een langere periode van "rust" terug opnieuw een scrub gestart vanmorgen en lo and behold:


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Tue Jan 26 10:30:30 2016
    17.2T scanned out of 20.1T at 782M/s, 1h6m to go
    4K repaired, 85.15% done
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     0
            disk2-xxxxxxxx   ONLINE       0     0     1  (repairing)
            disk3-xxxxxxxx   ONLINE       0     0     0
            disk4-xxxxxxxx   ONLINE       0     0     0
            disk5-xxxxxxxx   ONLINE       0     0     0
            disk6-xxxxxxxx   ONLINE       0     0     0
            disk7-xxxxxxxx   ONLINE       0     0     0
            disk8-xxxxxxxx   ONLINE       0     0     0
            disk9-xxxxxxxx   ONLINE       0     0     0
            disk10-xxxxxxxx  ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0


Vanavond gaan de controllers om, for sure.

Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Zie je ook een disk event met die scrub en die enkele checksum error?

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Zonet de controllers geswapped, scrub gestart.

Laatste scrub(s) liepen zonder problemen toen controller nog niet geswapped was. Ga na een goede run van één scrub eens retesten door tijdens een scrub een manuele spindown commando te geven.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Ondertussen weer wat verder, zoals laatst gepost is de controller een plaatsje omhoog gegaan en zitten ze nu vlak onder elkaar, op 8 februari heeft er een scrub gelopen (sinds de problemen en laatste post hierboven heb ik het op wekelijks staan) en er zijn weer checksum errors:

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 144K in 7h55m with 0 errors on Mon Feb  8 09:55:51 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     2
            disk2-xxxxxxxx   ONLINE       0     0     1
            disk3-xxxxxxxx   ONLINE       0     0     1
            disk4-xxxxxxxx   ONLINE       0     0     1
            disk5-xxxxxxxx   ONLINE       0     0     1
            disk6-xxxxxxxx   ONLINE       0     0     2
            disk7-xxxxxxxx   ONLINE       0     0     0
            disk8-xxxxxxxx   ONLINE       0     0     1
            disk9-xxxxxxxx   ONLINE       0     0     0
            disk10-xxxxxxxx  ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0


Errors verspreiden zich ook over 7 disks van de 10, dus het is over meerdere controllers.

[ Voor 6% gewijzigd door HyperBart op 09-02-2016 14:02 ]


Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Hmm. ik begin toch je CPU te verdenken... Maar het rare is, dat je dan wel wat kernel meldingen zou moeten zien over PCIe CRC errors gok ik...

Vreemd verhaal...

Even niets...


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Ik kan als last resort nog zoveel mogelijk disks aansluiten op de onboard SATA?

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Tis dat het niet zo makkelijk te doen is, maar ik zou haast zeggen. Kom langs en hang je pool in mijn server voor een paar dagen (of weken :+).

Maar dan zie ik al je vakantiekiekjes :P

Even niets...


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Zijn de controllers nu goed gekoeld?

Dit is echt super raar. Kan alleen moederbord, CPU of RAM zijn zou ik zeggen.
Maar als het ram/cpu is dan zou die hele box moeten crashen zo nu en dan.

Super gek maar kan zelfs ook nog software issue zijn, andere kernel / zfs draaien?

Brakke voeding?

[ Voor 3% gewijzigd door Q op 09-02-2016 15:34 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Q schreef op dinsdag 09 februari 2016 @ 15:34:
Zijn de controllers nu goed gekoeld?
Neen, ook niet zo evident om dat klaar te krijgen aangezien ik nergens een mogelijkheid heb om na mijn disks een fan te plaatsen om de airflow hoog genoeg te houden om de heatsinks af te koelen.
Dit is echt super raar. Kan alleen moederbord, CPU of RAM zijn zou ik zeggen.
Maar als het ram/cpu is dan zou die hele box moeten crashen zo nu en dan.
Ja, lijkt mij ook.
Super gek maar kan zelfs ook nog software issue zijn, andere kernel / zfs draaien?

Brakke voeding?
Kan eens een ZFSguru live draaien, maar hoe lang dan ook weer, wanneer doet het issue zich voor etc etc.

Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Kun je een deel van de disks op de on-board controller zetten en je resilves nog een paar keer draaien ?
Als die disks dan consistent geen errors laten zien, weet je dat het iets met de controllers of PCIe bus is.

Echter, als jij die M1015 kaarten niet actief koelt, dan raad ik het aan om dat toch als eerste te gaan regelen, hoe dan ook.

Zoals ik het zie: als je die kaarten niet actief koelt dan heeft op dit moment verder zoeken niet zoveel zin.

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Onboard controller zit toch ook achter PCIe? (in de vorm van DMI, wat gewoon een soort PCIe is)

Andere ZFS versie is misschien wel een idee...

Even niets...


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Allemaal heel valide punten maar blijf het wel nog altijd beetje raar vinden dat dit nu ineens de kop op steekt. Heb zonet met een quick fix een stukje karton vastgemaakt op een fan die ik onder de controllers had gemount zodat de airflow die naar boven geblazen wordt net voor de laatste kaart tussen de bovenste en de onderste kaart wordt geblazen, het is maar een klein zuchtje vermoed ik maar het hoeft niet veel te zijn.

De fan blaast eigenlijk een luchtstroom recht tegen de onderste controller en de fan zit op een bracket tegen de achterkant van de kast. Dus de luchstroom blaast ook niet recht onder de heatsinks. Door dat ze een beetje overlappen heeft de onderste controller wel een goede luchtstroom maar ik kan niet vaststellen of de controller erboven veel gekoeld wordt, ik vermoed van wel door de quickfix van hierboven, jammere is daar dan ook weer dat de heatsink net verkeerd om staat om de luchstroom optimaal tussen de koelvinnen te krijgen.

[ Voor 36% gewijzigd door HyperBart op 09-02-2016 16:22 ]


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Is mijn optie qua fan met een top-down koeler zoals in mijn 71 TB machine niet mogelijk? (zie link signature)

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Ik heb wel niet zoveel ruimte tussen mijn zijpaneel en de controllers als jij tussen je top plate en de kaarten, maar het is zeker een goede manier.

Met welk beugeltje heb jij die fan zo 'hangen'? Want dat is nu mijn uitdaging...

Edit: zoiets dus http://www.ebay.com/itm/P...unt-bracket-/251710287692

[ Voor 27% gewijzigd door HyperBart op 09-02-2016 22:32 ]


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

pricewatch: Zalman FB123, 92mm

Misschien deze?

pricewatch: Zalman ZM-SC100

Je zou zover kunnen gaan dat je een ventilator in je zijpaneel monteert (dremel in paneel zetten dus).

[ Voor 19% gewijzigd door Q op 10-02-2016 04:16 ]


Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Kan je niet ergens zo'n laser thermometer lenen? En gewoon eens meten of dat wel het probleem is.

Als je een flinke airflow van voor naar achter hebt kan ik me niet voorstellen dat die kaarten echt zo heet worden dat ze fouten gaan maken...

Even niets...


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Je kent mijn kast toch? Die muur van 4 disks houdt gewoon al het merendeel tegen van de lucht tegen, vanboven heb je dan nog wel die grote low RPM fan maar das nu ook niet om te zeggen dat die flow onder die kaarten genereert.

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
De Operational Temperature van dat ding is 95 graden... Voordat je kaartje dat bereikt, ben je denk ik wel iets verder...

Even niets...


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Q schreef op dinsdag 09 februari 2016 @ 15:59:
Kun je een deel van de disks op de on-board controller zetten en je resilves nog een paar keer draaien ?
Als die disks dan consistent geen errors laten zien, weet je dat het iets met de controllers of PCIe bus is.
Dit wordt het volgende om te testen.
Echter, als jij die M1015 kaarten niet actief koelt, dan raad ik het aan om dat toch als eerste te gaan regelen, hoe dan ook.

Zoals ik het zie: als je die kaarten niet actief koelt dan heeft op dit moment verder zoeken niet zoveel zin.
Cooling is nu al een tijdje in orde, dus die kaarten kunnen sowieso niet TE warm worden, genomen het feit dat als wat FireDrunk hier postte correct is, dat ik me er dan al helemaal geen zorgen om moet maken.

En toch weer:

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 48K in 8h0m with 0 errors on Mon Feb 15 10:00:31 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-XXXXXXXX   ONLINE       0     0     0
            disk2-XXXXXXXX   ONLINE       0     0     0
            disk3-XXXXXXXX   ONLINE       0     0     1
            disk4-XXXXXXXX   ONLINE       0     0     0
            disk5-XXXXXXXX   ONLINE       0     0     0
            disk6-XXXXXXXX   ONLINE       0     0     1
            disk7-XXXXXXXX   ONLINE       0     0     0
            disk8-XXXXXXXX   ONLINE       0     0     3
            disk9-XXXXXXXX   ONLINE       0     0     1
            disk10-XXXXXXXX  ONLINE       0     0     1
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0


Dit was tijdens een van mijn scheduled scrubs, dus niks manueel gestart, scrub zoals hij altijd goed liep...

[ Voor 19% gewijzigd door HyperBart op 19-02-2016 15:59 ]


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

De SATA kabels checken/vervangen?
Kernel / zfs module vervangen / upgraden?

[ Voor 39% gewijzigd door Q op 19-02-2016 20:35 ]


Acties:
  • 0 Henk 'm!

  • jacovn
  • Registratie: Augustus 2001
  • Laatst online: 26-08 18:36
Ik koel mijn m1015 kaarten net zo als Q. Een 140 mm zelfs in een kast op laag toerental. Dat zijn dan 2x M1015 en een 10 GE netwerk kaart.

Je krijgt echt vage errors op die m1015 kaarten als ze te warm worden is mijn ervaring.

[ Voor 24% gewijzigd door jacovn op 19-02-2016 21:14 ]

8x330 NO12.5°, 8x330 ZW12.5°, 8x350 ZW60°, 8x325 NO10°, SE8K, P500. 6x410 ZW10° Enphase


Acties:
  • 0 Henk 'm!

Verwijderd

Daarom beter een goede AHCI controller. :P

Ik skip even het topic met deze vraag, maar toch: had je nou al getest met een deel van de disks op je chipset AHCI controller? Zo ja, hebben die ook checksum errors? Je dient namelijk ook de controller (en diens drivers) uit te sluiten. Zomaar je CPU verdenken vind ik twijfelachtig. Als je CPU instabiel zou zijn, zou je dat ook aan vage crashes/BSODs/panics moeten zien en niet alleen checksum errors. Dat zou eerder aan je RAM, controller of drivers/softwaresetup te wijten zijn.

Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Aangenomen dat dit linux is zou ik zeker een nieuwe kernel + de meest recente ZFS module voor het OS pakken. Wat voor distro is dit?

Als je nog steeds die I/O errors krijgt op de disks dan heeft het IIG niets met ZFS zelf te maken maar met de onderliggende kernel zooi. Daarom zou een andere kernel/OS interessant kunnen zijn.

Zou je eens ./show disk -msC kunnen runnen?

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
root@nano:~# show disk -msC
--------------------------------------------
| Dev | Model                 | GB   | CRC |   
--------------------------------------------
| sda | HGST HDS724040ALE640  | 4000 | 0   |   
| sdb | HGST HDS724040ALE640  | 4000 | 0   |   
| sdc | HGST HDS724040ALE640  | 4000 | 0   |   
| sdd | HGST HDS724040ALE640  | 4000 | 0   |   
| sde | HGST HDS724040ALE640  | 4000 | 0   |   
| sdf | HGST HDS724040ALE640  | 4000 | 0   |   
| sdg | HGST HDS724040ALE640  | 4000 | 0   |   
| sdh | HGST HDS724040ALE640  | 4000 | 0   |   
| sdi | HGST HDS724040ALE640  | 4000 | 0   |   
| sdj | HGST HDS724040ALE640  | 4000 | 0   |   
| sdk | HGST HDS724040ALE640  | 4000 | 0   |   
| sdl | HGST HDS724040ALE640  | 4000 | 0   |   
| sdm | HGST HDS724040ALE640  | 4000 | 0   |   
| sdn | HGST HDS724040ALE640  | 4000 | 0   |   
| sdo | HGST HDS724040ALE640  | 4000 | 0   |   
| sdp | HGST HDS724040ALE640  | 4000 | 0   |   
| sdq | HGST HDS724040ALE640  | 4000 | 0   |   
| sdr | HGST HDS724040ALE640  | 4000 | 0   |   
| sds | HGST HDS724040ALE640  | 4000 | 0   |   
| sdt | HGST HDS724040ALE640  | 4000 | 0   |   
| sdu | HGST HDS724040ALE640  | 4000 | 0   |   
| sdv | HGST HDS724040ALE640  | 4000 | 0   |   
| sdw | HGST HDS724040ALE640  | 4000 | 0   |   
| sdx | HGST HDS724040ALE640  | 4000 | 0   |   
| sdy | Crucial_CT120M500SSD1 | 120  | 0   |   
| sdz | Crucial_CT120M500SSD1 | 120  | 0   |   
--------------------------------------------

[ Voor 7% gewijzigd door Q op 19-02-2016 23:33 ]


Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Hij zit op Ubuntu 14.04.2 uit mijn hoofd :) (ZFS 0.6.2 denk ik zo)
Kernel 3.13.

Ik had ook al een kernel upgrade voorgesteld.

Even niets...


  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
root@nas:~# uname -a
Linux nas 3.13.0-77-generic #121-Ubuntu SMP Wed Jan 20 10:50:42 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux

root@nas:~# lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 14.04.3 LTS
Release:        14.04
Codename:       trusty


ZFS versie kan ik niet zo snel opsnorren(?)

dist-upgrade en consoorten geven niets, wat doe ik om de kernel te upgraden, zoiets?

sudo apt-get install linux-generic-lts-vivid



Begin ook het idee te krijgen dat de fouten vaker beginnen voor te komen (zie disk 8 en 10)

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 128K in 8h5m with 0 errors on Mon Feb 22 10:06:02 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     1
            disk2-xxxxxxxx   ONLINE       0     0     1
            disk3-xxxxxxxx   ONLINE       0     0     2
            disk4-xxxxxxxx   ONLINE       0     0     0
            disk5-xxxxxxxx   ONLINE       0     0     0
            disk6-xxxxxxxx   ONLINE       0     0     1
            disk7-xxxxxxxx   ONLINE       0     0     1
            disk8-xxxxxxxx   ONLINE       0     0     4
            disk9-xxxxxxxx   ONLINE       0     0     2
            disk10-xxxxxxxx  ONLINE       0     0     3
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0

[ Voor 58% gewijzigd door HyperBart op 25-02-2016 15:14 ]


  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

dpkg -l | grep -i zfs geeft je wel een zfs versie.

Haal je boot schijven uit het systeem en bewaar die. Stop een nieuwe schijf in je systeem en installeer een ander OS, Debian, CentOS of FreeBSD, waar je comfortabel mee bent, gooi ZFS er op en mount + scrub de pool een paar keer.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Q schreef op donderdag 03 maart 2016 @ 10:01:
Is deze nieuwe hardware nu een poging om die CRC errors op te lossen ofzo?
Die heeft het de laatste tijd wat druk gehad :+ .

CRC errors hebben zich nog een beetje opgestapeld en 96K is gerepaired. Ik reset ze voorlopig ook niet tot nader order.

Dit weekend gaan er wat kabeltjes om naar het moederbord om het een en het ander uit te sluiten.

Acties:
  • 0 Henk 'm!

  • SanderH_
  • Registratie: Juni 2010
  • Laatst online: 23:32
Verkeerde topic :o

[ Voor 160% gewijzigd door SanderH_ op 10-03-2016 19:43 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Ziezo, zonet 3 (disk7, disk8, disk9) van de 10 disks (diegenen met de meeste CRC errors) omgeprikt naar de onboard SATA controller. Meer kon ik nu niet vrijmaken zonder config-changes (Boot SSD, L2ARC, Download SSD).

Scrub loopt nu, keep you posted.

EDIT:
eerste scrub is teruggekomen met errors op
disk 6

geen errors voorlopig op
disk 7
disk 8
disk 9

Voorlopig via cron een dagelijkse scrub ingesteld, kwestie om sneller hits te krijgen indien er zich nog fouten voordoen.
Q schreef op donderdag 25 februari 2016 @ 17:13:
dpkg -l | grep -i zfs geeft je wel een zfs versie.

Haal je boot schijven uit het systeem en bewaar die. Stop een nieuwe schijf in je systeem en installeer een ander OS, Debian, CentOS of FreeBSD, waar je comfortabel mee bent, gooi ZFS er op en mount + scrub de pool een paar keer.
ZFS versie is wat verouderd dan heb ik de indruk?

root@nas:~# dpkg -l | grep -i zfs
ii  dkms                                                        2.2.0.3-1.1ubuntu5.14.04.1+zfs10~trusty all          Dynamic Kernel Module Support Framework
rc  libzfs1                                                     0.6.2-2~trusty                          amd64        Native ZFS filesystem library for Linux
ii  libzfs2                                                     0.6.5.4-1~trusty                        amd64        Native OpenZFS filesystem library for Linux
rc  libzpool1                                                   0.6.2-2~trusty                          amd64        Native ZFS pool library for Linux
ii  libzpool2                                                   0.6.5.4-1~trusty                        amd64        Native OpenZFS pool library for Linux
ii  mountall                                                    2.53-zfs1                               amd64        filesystem mounting tool
ii  ubuntu-zfs                                                  8~trusty                                amd64        Native ZFS filesystem metapackage for Ubuntu.
ii  zfs-dkms                                                    0.6.5.4-1~trusty                        amd64        Native OpenZFS filesystem kernel modules for Linux
ii  zfs-doc                                                     0.6.5.4-1~trusty                        amd64        Native OpenZFS filesystem documentation and examples.
ii  zfsutils                                                    0.6.5.4-1~trusty                        amd64        Native OpenZFS management utilities for Linux



rc  libzfs1                                                     0.6.2-2~trusty                          amd64        Native ZFS filesystem library for Linux


0.6.2.2 is dan mijn ZFS versie, correct?

[ Voor 106% gewijzigd door HyperBart op 17-03-2016 15:51 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Ik heb de afgelopen dagen ongeveer een stuk of 5 à 6 scrubs gestart en met uitzondering van één keer een CKSUM error bij de eerste scrub, zijn er geen fouten meer opgetreden.

Er zijn 2 dingen veranderd tov de scrubs met fouten:

Een reboot (dus spindown staat niet meer aan)
3 disks van de 10 hangen op een onboard controller

Ik begin stiekem spindown te verdenken, maar ik begrijp niet hoe dat een invloed kan hebben op scrubs? ZFS moet toch gewoon wachten op de IO, en die IO komt pas als de disk opgespind is? Of heeft het iets te maken met het feit dat de disks op de een of andere manier te hard in spindown worden geduwd en dat er bepaalde data nog niet is weggeschreven naar de disks? Kunnen we dit factueel vaststellen?

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
0.6.2.2 is wel *heel* oud :) We zitten inmiddels op 0.6.5.5.

0.6.2 is van Augustus 2013

[ Voor 7% gewijzigd door FireDrunk op 18-03-2016 11:09 ]

Even niets...


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Spindown zou wel eens een hele goede kandidaat kunnen zijn. Als je test, raad ik je wel aan om slechts 1 ding tegelijk te wijzigen want anders weet je niet welke wijziging de oorzaak van een verandering is.

Prik de disks maar eens terug op de controller en hou spindown uitgeschakeld.

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Dat riep ik een week of 10 geleden ook al :+

Even niets...


Acties:
  • 0 Henk 'm!

  • Ultra
  • Registratie: Maart 2000
  • Niet online
HyperBart schreef op zondag 13 maart 2016 @ 11:38:
ZFS versie is wat verouderd dan heb ik de indruk?

rc  libzfs1                                                     0.6.2-2~trusty                          amd64        Native ZFS filesystem library for Linux


0.6.2.2 is dan mijn ZFS versie, correct?
'rc' betekent dat-ie verwijderd is, dus nee.

# dpkg -l | head
Desired=Unknown/Install/Remove/Purge/Hold
| Status=Not/Inst/Conf-files/Unpacked/halF-conf/Half-inst/trig-aWait/Trig-pend
|/ Err?=(none)/Reinst-required (Status,Err: uppercase=bad)
||/ Name                           Version                      Architecture Description
+++-==============================-============================-============-============================================================

# dpkg | grep zfs
ii  debian-zfs                     7~jessie                     amd64        Native ZFS filesystem metapackage for Debian.
ii  libzfs2                        0.6.5.2-2                    amd64        Native ZFS filesystem library for Linux
ii  zfs-dkms                       0.6.5.2-2                    all          Native ZFS filesystem kernel modules for Linux
ii  zfsonlinux                     6                            all          archive.zfsonlinux.org trust package
ii  zfsutils                       0.6.5.2-2                    amd64        command-line tools to manage ZFS filesystems


Je zou ook een geheugenreepje eruit kunnen halen, en nadat het weer fout is gegaan de ander proberen (in een andere sleuf). Kans dat dat het is lijkt erg klein, maar het is eenvoudig te proberen.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Wat is dan nu volgens jullie mijn huidige versie van ZFS, ik krijg wat tegenstrijdig berichten?
FireDrunk schreef op vrijdag 18 maart 2016 @ 12:16:
Dat riep ik een week of 10 geleden ook al :+
Helemaal gelijk natuurlijk, maar toen waren er nog wat meer fouten dan die ene die ik nu alleen maar had.

Spindown moet ik telkens manueel na een reboot aanzetten, dat is de reden dat er zogenaamd nu twee dingen gewijzigd zijn.

[ Voor 11% gewijzigd door HyperBart op 18-03-2016 18:38 ]


Acties:
  • 0 Henk 'm!

  • Ultra
  • Registratie: Maart 2000
  • Niet online
0.6.5.4-1 lijkt me.

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Dit is een maandje lang aan logs en outputs van zpool:

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
01-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
02-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
03-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
04-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
05-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
06-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
07-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Mon Mar  7 02:00:11 2016
    2.47T scanned out of 20.8T at 722M/s, 7h24m to go
    0 repaired, 11.87% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     2
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
08-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
09-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
10-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
11-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
12-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 64K in 8h7m with 0 errors on Fri Mar 11 17:18:51 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     2
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     4
        disk9-XXXXXXXX   ONLINE       0     0     6
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
13-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 64K in 8h7m with 0 errors on Fri Mar 11 17:18:51 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     2
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     4
        disk9-XXXXXXXX   ONLINE       0     0     6
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
15-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Tue Mar 15 01:00:02 2016
    4.76T scanned out of 20.9T at 693M/s, 6h46m to go
    0 repaired, 22.79% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
16-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Wed Mar 16 01:00:02 2016
    5.81T scanned out of 20.9T at 846M/s, 5h11m to go
    0 repaired, 27.79% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
17-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Thu Mar 17 01:00:02 2016
    4.47T scanned out of 20.9T at 651M/s, 7h21m to go
    0 repaired, 21.38% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
18-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 0 in 9h46m with 0 errors on Fri Mar 18 01:32:54 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
19-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Sat Mar 19 01:00:02 2016
    5.35T scanned out of 20.9T at 779M/s, 5h49m to go
    0 repaired, 25.55% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
20-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Sun Mar 20 01:00:02 2016
    5.01T scanned out of 21.0T at 730M/s, 6h21m to go
    0 repaired, 23.91% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
21-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Mon Mar 21 01:00:01 2016
    5.34T scanned out of 21.0T at 778M/s, 5h50m to go
    0 repaired, 25.50% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
22-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Tue Mar 22 01:00:01 2016
    5.82T scanned out of 21.0T at 847M/s, 5h12m to go
    0 repaired, 27.74% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
23-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Wed Mar 23 01:00:02 2016
    5.23T scanned out of 21.0T at 762M/s, 6h1m to go
    0 repaired, 24.94% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
24-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Thu Mar 24 01:00:01 2016
    4.60T scanned out of 21.0T at 670M/s, 7h6m to go
    0 repaired, 21.96% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
25-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Fri Mar 25 01:00:01 2016
    5.81T scanned out of 21.0T at 846M/s, 5h13m to go
    0 repaired, 27.71% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
26-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Sat Mar 26 01:00:02 2016
    5.20T scanned out of 21.0T at 757M/s, 6h4m to go
    0 repaired, 24.79% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
27-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Sun Mar 27 01:00:02 2016
    2.44T scanned out of 21.0T at 712M/s, 7h34m to go
    0 repaired, 11.65% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
28-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Mon Mar 28 01:00:01 2016
    4.47T scanned out of 21.0T at 651M/s, 7h23m to go
    0 repaired, 21.31% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
29-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Tue Mar 29 01:00:02 2016
    5.01T scanned out of 21.0T at 730M/s, 6h22m to go
    0 repaired, 23.87% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
30-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Wed Mar 30 01:00:02 2016
    5.02T scanned out of 21.0T at 731M/s, 6h21m to go
    0 repaired, 23.91% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0


Vanaf 24/03 heb ik een zpool clear gedaan. Ik heb zonet vandaag met volgende commando's spindown terug ge-enabled:

code:
1
2
3
4
5
6
7
8
9
10
hdparm -S 240 /dev/disk/by-partlabel/disk1-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk2-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk3-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk4-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk5-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk6-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk7-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk8-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk9-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk10-XXXXXXXX

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Had je al eens een poosje zonder L2ARC gedraaid?

Even niets...


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Wat is er nu veranderd dat de laatste paar scrubs geen errors gaven? Ik raak een beetje kwijt wat je nu aan het testen bent.

Die disk 6 die nog als enige een paar keer een error gaf, zat die op de controller of op het moederbord doen de scrub draaide?

[ Voor 34% gewijzigd door Q op 30-03-2016 23:48 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
FireDrunk schreef op woensdag 30 maart 2016 @ 15:52:
Had je al eens een poosje zonder L2ARC gedraaid?
Neen(?)
Q schreef op woensdag 30 maart 2016 @ 23:48:
Wat is er nu veranderd dat de laatste paar scrubs geen errors gaven? Ik raak een beetje kwijt wat je nu aan het testen bent.
  1. Spindown staat niet meer aan. Reden: na een reboot staat bij mij altijd spindown uit (hdparm.conf wordt sinds een tijdje om een of andere vage reden niet meer uitgelezen, of althans de commando's voor spindown daarin niet
  2. Disk 7, 8 en 9 zitten niet meer op de M1015's/Dell maar onboard (zie hieronder)
Ik had graag gewild dat ik slechts één actie had ondernomen, maar door die reboot en er niet meer bij stil te staan dat spindown uit stond en de test resultaten al vervuild waren ben ik hier mee verder gegaan. Spindown staat nu sinds gisteren (zie vorige post) wel terug aan.
HyperBart schreef op zondag 13 maart 2016 @ 11:38:
(disk7, disk8, disk9) van de 10 disks
Deze disks zijn omgeprikt
Die disk 6 die nog als enige een paar keer een error gaf, zat die op de controller of op het moederbord doen de scrub draaide?
Op de controller

[ Voor 11% gewijzigd door HyperBart op 31-03-2016 09:33 ]


Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Q schreef op woensdag 30 maart 2016 @ 23:48:
Wat is er nu veranderd dat de laatste paar scrubs geen errors gaven? Ik raak een beetje kwijt wat je nu aan het testen bent.

Die disk 6 die nog als enige een paar keer een error gaf, zat die op de controller of op het moederbord doen de scrub draaide?
Ondertussen zijn we al een klein maandje verder en kan ik met een gerust hart zeggen dat de CKSUM errors verdwenen zijn, ik wil gerust nog even de disks terug omprikken en ze allemaal terug op de M1015's hangen, maar ik maak me sterk dat het aan spindown lag.

Dan rest natuurlijk wel nog één vraag: als spindown regelen via de eerdere commando's (zie paar posts terug) dit veroorzaakt, hoe kan ik dan op een ordentelijke manier spindown inregelen? Met een verbruik wat zomaar verdubbelt van 60 naar 120 wat tikt dat namelijk nogal door en is de benefit redelijk hoog om dit in orde te krijgen.

[ Voor 23% gewijzigd door HyperBart op 23-05-2016 13:28 ]


Acties:
  • Beste antwoord
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Wat heb je nu precies aangepast wat kan verklaren dat je scrubs nu geen checksum errors meer geven?

Heb je de spindown uitgeschakeld? Is dat nu de conclusie, dat spindown deze issues geeft?

Acties:
  • 0 Henk 'm!

  • FireDrunk
  • Registratie: November 2002
  • Laatst online: 11-09 13:48
Jup, dat was zijn conclusie... Ik vind het ook raar. Maar misschien is het een bugje in de firmware van de disks. Ik had al voorgesteld om te kijken of we hetzelfde gedrag kunnen reproduceren op bijvoorbeeld Hitachi's of WD's.

Even niets...


Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Ik vraag me af of de errors meerder met timeouts en ZFS te maken hebben dan dat er 'echte' data corruptie optreedt. Zou eigenlijk eens met MDADM / scrubs en md5sum moeten testen ;)

Acties:
  • 0 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
Q schreef op maandag 23 mei 2016 @ 16:49:
Ik vraag me af of de errors meerder met timeouts en ZFS te maken hebben dan dat er 'echte' data corruptie optreedt. Zou eigenlijk eens met MDADM / scrubs en md5sum moeten testen ;)
Ik dacht net dat we daarom ZFS zo leuk vonden, geen TLER disks enzo.

Ik heb op de setup van een goede vriend (20 x HGST) ook eens spindown aangezet, en daar doet het probleem zich (voorlopig) niet voor.

Wel bijzonder allemaal hoor, want die cksum errors zijn ook maar opeens beginnen opkomen, daarvoor had ik bijna anderhalf jaar geen probleem ofzo met spindown. Ik zou bijna gaan denken dat het gebeurt omdat de disks misschien meer opgevuld zijn oid 8)7

ZFS vangt het nu wel allemaal, maar het zou me toch wat meer gemoedsrust geven als ik het weg zou krijgen.

[ Voor 5% gewijzigd door HyperBart op 22-06-2016 10:27 ]


Acties:
  • +2 Henk 'm!

  • HyperBart
  • Registratie: Maart 2006
  • Laatst online: 23:11
FireDrunk schreef op maandag 23 mei 2016 @ 14:27:
Jup, dat was zijn conclusie... Ik vind het ook raar. Maar misschien is het een bugje in de firmware van de disks. Ik had al voorgesteld om te kijken of we hetzelfde gedrag kunnen reproduceren op bijvoorbeeld Hitachi's of WD's.
Q schreef op maandag 23 mei 2016 @ 13:43:
Wat heb je nu precies aangepast wat kan verklaren dat je scrubs nu geen checksum errors meer geven?

Heb je de spindown uitgeschakeld? Is dat nu de conclusie, dat spindown deze issues geeft?
Na 4 jaar lang :+ geen enkel probleem gehad te hebben zonder spindown heb ik sinds een paar dagen spindown terug aan. De wekelijkse scrub kwam al met cksum errors waar dit voorheen nooit meer voorkwam. Ondertussen is ook de basishardware (cpu, mobo, mem) vervangen en een volledige fresh install dus het zit toch echt ergens in de afhandeling van spindown op de disks.

Binnen een aantal weken gaan er 6 nieuwe schijven bij in en daar ga ik dezelfde spindown op instellen en dan zien we wel weer verder.

@FireDrunk @Q

Acties:
  • 0 Henk 'm!

  • Q
  • Registratie: November 1999
  • Laatst online: 01:54

Q

Au Contraire Mon Capitan!

Wow, thanks for the follow-up 😄👍
Pagina: 1