Troubleshooting en oorzaak ZFS cksum errors

dinsdag 19 januari 2016 17:12

Au Contraire Mon Capitan!

Wat heb je nu precies aangepast wat kan verklaren dat je scrubs nu geen checksum errors meer geven?

Heb je de spindown uitgeschakeld? Is dat nu de conclusie, dat spindown deze issues geeft?

Acties:

0 Henk 'm!

dinsdag 19 januari 2016 17:21

Au Contraire Mon Capitan!

Ben benieuwd wat je Memtest gaat vinden, zo te zien draai je met ECC geheugen. Met ECC zou je ofwel geen CRC errors mogen zien ondanks bitfouen ofwel was je machine geklapt. Maar wie weet.

Op wat voor controller zitten die disks? Allemaal op de zelfde controller/HBA of deels op HBA en deels on-board op het moederbord?

Acties:

0 Henk 'm!

dinsdag 19 januari 2016 17:27

Topicstarter

Gesplitst, ik heb 2 x M1015 waar de disks op hangen en bij het builden samen met FireDrunk hebben we er over gewaakt om goed uit te splitsen. Als de server straks af staat (of bij voorkeur via een commando/tooltje) wil ik anders wel eens kijken welke disks op welke controller hangen. Ik ga liever nu niet wiggelen met kabels om onbedoelde kabelfouten te introduceren.

Zodadelijk eens kijken met /dev/disk-by/.....

Ik ben er ook heel benieuwd naar, want ik draai inderdaad met ECC maar ik heb nergens problemen gehad. Downloads kwamen goed binnen, shell was responsief, machine heeft geen spontane reboots oid gehad (dat heb ik trouwens onmiddellijk door want ik start mijn services allemaal manueel en moet mijn pools manueel importeren).

Memtest is ondertussen op 62% algemeen en met test #8 [Modulo 20, Random Pattern] bezig en ik heb nog geen errors gezien.

[ Voor 17% gewijzigd door HyperBart op 19-01-2016 17:27 ]

Acties:

+1 Henk 'm!

dinsdag 19 januari 2016 17:29

Au Contraire Mon Capitan!

Het zijn 6 disks die errors geven dus als je 5 disks op controller 1 hebt en 5 op de ander dan is het zeer waarschijnlijk niet controller-specifiek.

Ik zou ook eens kijken / voelen hoe warm die controllers worden. De M1015 wordt pittig warm en ik heb er van het begin af aan een fan er direct boven hangen (ik draai met drie stuks).

Is er recent iets veranderd aan je setup betteffende disk sleep? Niet echt relevant als dit issue naar boven kwam door een scrub.

[ Voor 16% gewijzigd door Q op 19-01-2016 17:29 ]

Acties:

0 Henk 'm!

dinsdag 19 januari 2016 17:38

Topicstarter

Die krengen zijn inderdaad heel warm (kan er de buitenkant van mijn vingers niet langer als een seconde tegenhouden)

6 disks op één controller kan normaal niet 5/3 wil ik nog makkelijk geloven maar 6/2 lijkt me wat te fel in onbalans.

Acties:

0 Henk 'm!

dinsdag 19 januari 2016 17:46

Au Contraire Mon Capitan!

Hmm. Ik zou zeker een mooie 80mm fan boven die controllers hangen. Had precies het zelfde issue met mijn high-point rocketraid kaarten. 1 faalde zelfs een keer door gebrek aan koeling jaren terug.

Acties:

0 Henk 'm!

dinsdag 19 januari 2016 17:56

Topicstarter

Ik had er een tijdje zijdelings een fan op hangen, maar die kon bijna niks aanzuigen omdat die zo goed als tegen het zijpaneel zat van de Fractal kast waar de NAS in zit, aangezien het dingetje best wel wat lawaai maakte en ik het idee had dat het niets afdeed heb ik die losgekoppeld.

Ik heb zonet even een grove inventaris gemaakt en van de 6 disks die fouten hadden zitten er 3 al op de bovenste controller, 2 heb ik niet kunnen tracen naar waar ze gaan en 1 hangt op de onderste controller.

Dat er slechts één controller defect is kunnen we dus al uitsluiten. 2 kan nog altijd maar daar ga ik even niet van uit.

[ Voor 10% gewijzigd door HyperBart op 19-01-2016 17:49 ]

Acties:

0 Henk 'm!

dinsdag 19 januari 2016 17:57

Volgens mij hebben we 6 om 4 gedaan, en je ssds over de rest van de aansluitingen verdeeld.

Check even dmesg, /var/log/messages en kernel.log

Even niets...

Acties:

0 Henk 'm!

jbhc

Zijn het identieke schijven?
Bij mij is er ook wel eens een raid1 stuk gegaan met 2 identieke schijven die nagenoeg op hetzelfde moment de geest gaven.
Ik zorg er nu dus ook voor dat mijn schijven in ieder geval uit verschillende batches komen.

dinsdag 19 januari 2016 18:11

Acties:

0 Henk 'm!

dinsdag 19 januari 2016 18:24

Topicstarter

Het zijn identieke schijven ja, maar wel in twee grote batches gekocht.

Ik ben van 5 x 3tb naar 5 x 4tb naar (5+5) x 4tb gegaan.

Net om simultaan falen statistisch wat uit te sluiten.

Memtest is bijna voltooid, zit op 94% heeft zonet volledig een pass voltooid zonder ECC errors of gewone errors op 2h35 minuten voor 32GB over 4 latjes.

Binnen een uurtje ga ik met FireDrunk aan de slag en morgen laat ik sowieso door de dag nog een paar Memtest runs lopen om dat toch met wat meer zekerheid uit te sluiten.

[ Voor 47% gewijzigd door HyperBart op 19-01-2016 18:18 ]

Acties:

0 Henk 'm!

rikadoo

Heb verder niet heel veel verstand van ZFS dus daar houd ik me even buiten, maar is het niet altijd beter om memtest een hele nacht of iig een 10tal uur te laten draaien?

dinsdag 19 januari 2016 18:28

Acties:

0 Henk 'm!

woensdag 20 januari 2016 00:31

Topicstarter

Correct, daarom dat ik het morgen doorheen de dag ook ga laten draaien (of als ik gedaan heb met FD vanavond al en dan neem ik de nacht erbij). Maar het geeft toch al een goede indicatie. Als ik nu al errors zag dan moesten we niet veel verder gaan zoeken.
Moet eens kijken of ik dat kan afzetten maar bij iedere test die hij voltooid geeft hij ook een beepje en met onze slaapkamer er langs in een oud huis is dat nogal storend als het in de nacht staat te kachelen

.

[ Voor 4% gewijzigd door HyperBart op 19-01-2016 18:31 ]

Acties:

0 Henk 'm!

ph0t0nix

Misschien niet meer zo relevant na je memtest runs, maar bij de Supermicro borden wat ik ervaring mee heb werden ECC errors altijd in de IPMI event log geschreven. Daar kun je evt. dus ook nog kijken.

woensdag 20 januari 2016 09:56

Acties:

0 Henk 'm!

woensdag 20 januari 2016 10:42

Topicstarter

Goed, na een aangename 3h troubleshooten met FireDrunk en wat correctieve acties uitgezet te hebben gisterenavond toch de server maar terug "in productie" gezet.

Onze bevindingen:

In de logging zagen we volgende meldingen een paar keer voorbij komen:

code:

Jan 18 19:13:16 nas kernel: [529916.176228] sd 7:0:2:0: [sdj]
Jan 18 19:13:16 nas kernel: [529916.176234] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:16 nas kernel: [529916.176237] sd 7:0:2:0: [sdj] CDB:
Jan 18 19:13:16 nas kernel: [529916.176239] Read(16): 88 00 00 00 00 00 e7 02 3f a0 00 00 00 08 00 00
Jan 18 19:13:16 nas kernel: [529916.176252] end_request: I/O error, dev sdj, sector 3875684256
Jan 18 19:13:26 nas kernel: [529925.791318] sd 7:0:3:0: [sdk]
Jan 18 19:13:26 nas kernel: [529925.791323] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:26 nas kernel: [529925.791326] sd 7:0:3:0: [sdk] CDB:
Jan 18 19:13:26 nas kernel: [529925.791328] Read(16): 88 00 00 00 00 00 e7 02 3f a0 00 00 00 08 00 00
Jan 18 19:13:26 nas kernel: [529925.791340] end_request: I/O error, dev sdk, sector 3875684256
Jan 18 19:13:26 nas kernel: [529926.033323] sd 0:0:3:0: [sdd]
Jan 18 19:13:26 nas kernel: [529926.033328] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:26 nas kernel: [529926.033330] sd 0:0:3:0: [sdd] CDB:
Jan 18 19:13:26 nas kernel: [529926.033332] Read(16): 88 00 00 00 00 00 e7 02 4f 98 00 00 00 08 00 00
Jan 18 19:13:26 nas kernel: [529926.033344] end_request: I/O error, dev sdd, sector 3875688344
Jan 18 19:13:36 nas kernel: [529935.593709] sd 0:0:5:0: [sdf]
Jan 18 19:13:36 nas kernel: [529935.593714] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:36 nas kernel: [529935.593716] sd 0:0:5:0: [sdf] CDB:
Jan 18 19:13:36 nas kernel: [529935.593718] Read(16): 88 00 00 00 00 01 2c d1 f0 98 00 00 00 08 00 00
Jan 18 19:13:36 nas kernel: [529935.593730] end_request: I/O error, dev sdf, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.761543] sd 0:0:0:0: [sda]
Jan 18 19:13:55 nas kernel: [529954.761548] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:55 nas kernel: [529954.761551] sd 0:0:0:0: [sda] CDB:
Jan 18 19:13:55 nas kernel: [529954.761553] Read(16): 88 00 00 00 00 01 2c d1 f0 98 00 00 00 08 00 00
Jan 18 19:13:55 nas kernel: [529954.761565] end_request: I/O error, dev sda, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.763810] sd 0:0:1:0: [sdb]
Jan 18 19:13:55 nas kernel: [529954.763812] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:13:55 nas kernel: [529954.763814] sd 0:0:1:0: [sdb] CDB:
Jan 18 19:13:55 nas kernel: [529954.763815] Read(16): 88 00 00 00 00 01 2c d1 f0 98 00 00 00 08 00 00
Jan 18 19:13:55 nas kernel: [529954.763825] end_request: I/O error, dev sdb, sector 5046923416
Jan 18 19:14:29 nas kernel: [529988.893033] sd 0:0:2:0: [sdc]
Jan 18 19:14:29 nas kernel: [529988.893039] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:29 nas kernel: [529988.893042] sd 0:0:2:0: [sdc] CDB:
Jan 18 19:14:29 nas kernel: [529988.893044] Read(16): 88 00 00 00 00 01 19 e1 f1 98 00 00 00 20 00 00
Jan 18 19:14:29 nas kernel: [529988.893056] end_request: I/O error, dev sdc, sector 4729205144
Jan 18 19:14:29 nas kernel: [529988.895377] sd 0:0:4:0: [sde]
Jan 18 19:14:29 nas kernel: [529988.895379] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:29 nas kernel: [529988.895381] sd 0:0:4:0: [sde] CDB:
Jan 18 19:14:29 nas kernel: [529988.895382] Read(16): 88 00 00 00 00 01 19 e2 01 98 00 00 00 20 00 00
Jan 18 19:14:29 nas kernel: [529988.895392] end_request: I/O error, dev sde, sector 4729209240
Jan 18 19:14:48 nas kernel: [530007.860877] sd 7:0:0:0: [sdh]
Jan 18 19:14:48 nas kernel: [530007.860883] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:48 nas kernel: [530007.860885] sd 7:0:0:0: [sdh] CDB:
Jan 18 19:14:48 nas kernel: [530007.860887] Read(16): 88 00 00 00 00 01 19 e1 f1 98 00 00 00 20 00 00
Jan 18 19:14:48 nas kernel: [530007.860900] end_request: I/O error, dev sdh, sector 4729205144
Jan 18 19:14:48 nas kernel: [530007.863249] sd 7:0:1:0: [sdi]
Jan 18 19:14:48 nas kernel: [530007.863251] Result: hostbyte=DID_OK driverbyte=DRIVER_OK
Jan 18 19:14:48 nas kernel: [530007.863253] sd 7:0:1:0: [sdi] CDB:
Jan 18 19:14:48 nas kernel: [530007.863255] Read(16): 88 00 00 00 00 01 19 e1 f1 98 00 00 00 20 00 00
Jan 18 19:14:48 nas kernel: [530007.863265] end_request: I/O error, dev sdi, sector 4729205144

Initieel vonden we dit wel een beetje vreemd, zeker op 6 disks tegelijk. De 6 disks hangen verspreid over 2 controllers. Het leek ons sterk dat de 6 disks tegelijk allemaal een error geven. De common factor is het feit dat ze via dezelfde types (maar wel twee exemplaren van) controller ge-accessed worden en dat die controllers dus ook dezelfde driver delen. Een ECC fout is zo goed als uitgesloten omdat de de fout dan ook op andere pools had moeten voorkomen waarbij de devices rechtstreeks op het moederbord hangen zoals bv. mijn EVO500 waar tijdens de scrub ook downloads op binnen kwamen . PCIe is ook met ECC beschermd dus vanaf de controller kan het misgaan volgens ons.

We kunnen het niet hard bewijzen maar volgens FD kon het issue wel eens liggen bij een bokkende controller waardoor de gedeelde driver ook even zat te blokkeren. Verder viel tijdens het troubleshooting opeens op dat een van de controllers (een Dell) nog in IR mode stond, dat hebben we gisteren dus ook gecorrigeerd, beide controllers draaien nu op P19 en in IT mode zonder BIOS.

Deze nacht heeft er nog eens een scrub gelopen, zonder issues. We houden ons aanbevolen als iemand tips of ideeën heeft over andere oorzaken of oplossingen.

EDIT: Ik heb ondertussen nog eens een scrub gestart en zal dit ook een paar keer blijven doen doorheen de volgende weken, gewoon, om te testen.

Acties:

0 Henk 'm!

Verwijderd

Heb je beide HBA's hard op diverse IRQ's gezet?

woensdag 20 januari 2016 10:57

Acties:

0 Henk 'm!

woensdag 20 januari 2016 11:34

Au Contraire Mon Capitan!

Ik denk dat bovenstaande een mooie analyse is en ik denk dat het inderdaad iets met de controllers/driver is geweest.

Acties:

0 Henk 'm!

woensdag 20 januari 2016 12:32

Topicstarter

Verwijderd schreef op woensdag 20 januari 2016 @ 10:42:
Heb je beide HBA's hard op diverse IRQ's gezet?

Neen? Ik wil dat gerust doen, maar ik zie de nood er nog niet van aangezien het BIOS die netjes heeft uitgedeeld, het is niet dat ik de M1015 in een VM heb doorgegeven en dat hij daar wat in de knoop ligt met IRQ's (iets wat nog wel eens voorkomt met VM en passthrough controllers).

bart@nas:~$ cat /proc/interrupts | grep -i sas
 43:  163958957  164363921  144260590    2492418          0          0          0          0  IR-PCI-MSI-edge      mpt2sas0-msix0
 47:  146985962  152347131  165532498     313078          0          0          0          0  IR-PCI-MSI-edge      mpt2sas1-msix0
bart@nas:~$ cat /proc/interrupts | grep -i 43:
 43:  163976405  164363921  144339123    2492418          0          0          0          0  IR-PCI-MSI-edge      mpt2sas0-msix0
bart@nas:~$ cat /proc/interrupts | grep -i 47:
 47:  147024326  152425506  165532498     313078          0          0          0          0  IR-PCI-MSI-edge      mpt2sas1-msix0

Q schreef op woensdag 20 januari 2016 @ 10:57:
Ik denk dat bovenstaande een mooie analyse is en ik denk dat het inderdaad iets met de controllers/driver is geweest.

Mja, ik begin er ook naar te neigen. Ik vind het wel frappant, ik had nooit verwacht daar ergens fouten te zien gebeuren (die ZFS dan wel heel fijn gedetecteerd heeft) maar eerder op de disks. Punt blijft wel nog altijd dat ZFS het heel fijntjes opgemerkt heeft en het ook on-the-fly gerepareerd heeft en dit over 6 disks tegelijk. Ok, daarom niet op alle disks in dezelfde strip en uiteindelijk was het maar 24K, maar als die 24K op verkeerde plekken was gevallen dan denk ik dat een traditionele RAID had gebokt

.

[ Voor 55% gewijzigd door HyperBart op 20-01-2016 11:41 ]

Acties:

+1 Henk 'm!

vanaalten

HyperBart schreef op woensdag 20 januari 2016 @ 09:56:

code:

<manually sorted & grepped:>
Jan 18 19:13:16 nas kernel: [529916.176252] end_request: I/O error, dev sdj, sector 3875684256
Jan 18 19:13:26 nas kernel: [529925.791340] end_request: I/O error, dev sdk, sector 3875684256
Jan 18 19:13:26 nas kernel: [529926.033344] end_request: I/O error, dev sdd, sector 3875688344
Jan 18 19:13:36 nas kernel: [529935.593730] end_request: I/O error, dev sdf, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.761565] end_request: I/O error, dev sda, sector 5046923416
Jan 18 19:13:55 nas kernel: [529954.763825] end_request: I/O error, dev sdb, sector 5046923416
Jan 18 19:14:29 nas kernel: [529988.893056] end_request: I/O error, dev sdc, sector 4729205144
Jan 18 19:14:48 nas kernel: [530007.860900] end_request: I/O error, dev sdh, sector 4729205144
Jan 18 19:14:48 nas kernel: [530007.863265] end_request: I/O error, dev sdi, sector 4729205144
Jan 18 19:14:29 nas kernel: [529988.895392] end_request: I/O error, dev sde, sector 4729209240

Initieel vonden we dit wel een beetje vreemd, zeker op 6 disks tegelijk. De 6 disks hangen verspreid over 2 controllers. Het leek ons sterk dat de 6 disks tegelijk allemaal een error geven.

Ik weet niet wat je met 'dit' precies bedoelde, maar het valt mij op dat je dezelfde sectorwaarde bij meerdere disks voorbij ziet komen. Lijkt mij sterk dat sda, sdb en sdf tegelijk kapot gaan en nog wel op dezelfde sector ook, om maar wat te noemen.

Niet dat ik nou wat nieuws vertel, enkel even een uitgebreide post om het met je eens te zijn dat het waarschijnlijk niet aan de disks zelf ligt.

woensdag 20 januari 2016 16:50

Acties:

0 Henk 'm!

woensdag 20 januari 2016 17:00

Topicstarter

Na de reboots dacht ik nog even te zorgen dat ze terug netjes in spindown gaan, dus manueel even mijn disks met een rits aan hdparm commando's op 20 min gezet, moet ik sinds een tijdje altijd manueel doen na een reboot ipv dat ze ingeladen worden via hdparm.conf.

Ik dacht om ze dan ook even manueel in spindown te sturen (doe ik wel vaker na een reboot) met mijn alias die ik daarvoor heb maar realiseerde me even niet meer dat er nog een scrub liep. Op zich geen probleem, heb ik ooit nog gedaan en dat gaf toen geen problemen (iemand mag altijd eens even testen). Toen ik het realiseerd dat er nog een scrub liep (hij had ondertussen al een stuk of 4 disks in spindown gestuurd denk ik) heb ik met CTRL - C even geannuleerd.

En zonet zag ik dus:

  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Wed Jan 20 10:16:23 2016
    15.5T scanned out of 20.1T at 690M/s, 1h55m to go
    32K repaired, 77.37% done
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     0  (repairing)
            disk2-xxxxxxxx   ONLINE       0     0     0  (repairing)
            disk3-xxxxxxxx   ONLINE       0     0     0
            disk4-xxxxxxxx   ONLINE       0     0     0
            disk5-xxxxxxxx   ONLINE       0     0     0
            disk6-xxxxxxxx   ONLINE       0     0     0
            disk7-xxxxxxxx   ONLINE       0     0     0
            disk8-xxxxxxxx   ONLINE       0     0     0
            disk9-xxxxxxxx   ONLINE       0     0     0
            disk10-xxxxxxxx   ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0

Geen idee wat er mis gelopen is, ik ben benieuwd naar wanneer scrub gefinished is.

Zie net dat er 32K gerepaired is, had ik eerst even over gekeken.

[ Voor 12% gewijzigd door HyperBart op 20-01-2016 16:58 ]

Acties:

0 Henk 'm!

woensdag 20 januari 2016 17:05

Zal nog wel een restantje zijn van de gebokte controller. In ieder geval even in high alert in de gaten houden.

Even niets...

Acties:

0 Henk 'm!

woensdag 20 januari 2016 17:06

Topicstarter

Nochtans wel weer twee I/O errors:

Jan 20 16:35:23 nas kernel: [66011.384500] end_request: I/O error, dev sdm, sector 2671657184
Jan 20 16:35:28 nas kernel: [66016.910820] end_request: I/O error, dev sdp, sector 2671657184

Acties:

0 Henk 'm!

woensdag 20 januari 2016 17:24

Ok, das nie goed nie....

Even niets...

Acties:

0 Henk 'm!

jbhc

En hoe is het nu met de smart waarden? Ik ben met name benieuwd naar de reallocated sector counts.

woensdag 20 januari 2016 18:17

Acties:

0 Henk 'm!

woensdag 20 januari 2016 18:54

Topicstarter

Niks mee aan het handje:

-----------------------------------------------------------------------------------------------------------------
| Dev | Model                     | Serial Number        | GB   | Firmware | Temp | Hours | PS | RS | RSE | CRC |
-----------------------------------------------------------------------------------------------------------------

| sdg | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 35   | 8376  | 0  | 0  | ?   | 0   |
| sdh | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 33   | 18152 | 0  | 0  | ?   | 0   |
| sdi | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 33   | 18157 | 0  | 0  | ?   | 0   |
| sdj | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 30   | 9289  | 0  | 0  | ?   | 0   |
| sdk | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 31   | 9286  | 0  | 0  | ?   | 0   |
| sdl | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 29   | 9289  | 0  | 0  | ?   | 0   |
| sdm | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 35   | 18162 | 0  | 0  | ?   | 0   |
| sdn | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 40   | 9289  | 0  | 0  | ?   | 0   |
| sdo | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 39   | 18150 | 0  | 0  | ?   | 0   |
| sdp | ST4000DM000-1F2168        | xxxxxxxx             | 4000 | CC52     | 35   | 18160 | 0  | 0  | ?   | 0   |

Het zijn nu trouwens ook 2 andere disks dan gisteren, even ter info...

[ Voor 13% gewijzigd door HyperBart op 20-01-2016 18:19 ]

Acties:

0 Henk 'm!

A1AD

Je zou is de pool moeten importen in een freebsd variant? Kans is klein, maar toch weer iets dat je kan uitstrepen.

- Deze advertentie is geblokkeerd door Pi-Hole -

woensdag 20 januari 2016 19:07

Acties:

0 Henk 'm!

donderdag 21 januari 2016 09:39

Topicstarter

Scrub is voltooid met 0 errors voor READ WRITE of CKSUM, allemaal in orde. Er is wel 32K gerepareerd maar geen enkel device gaf een error.

Ga nu een tweede scrub aftrappen.

A1AD schreef op woensdag 20 januari 2016 @ 18:54:
Je zou is de pool moeten importen in een freebsd variant? Kans is klein, maar toch weer iets dat je kan uitstrepen.

Goh, waterkansje, maar ik kan eventueel wel eens met een ZFSguru Live CD'tje booten ja.

[ Voor 65% gewijzigd door HyperBart op 20-01-2016 22:09 ]

Acties:

0 Henk 'm!

donderdag 21 januari 2016 11:05

Topicstarter

Weer een scrub met fouten, deze keer heeft disk1 een CKSUM error gegeven.

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 16K in 10h2m with 0 errors on Thu Jan 21 05:09:03 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-XXXXXXXX   ONLINE       0     0     1
            disk2-XXXXXXXX   ONLINE       0     0     0
            disk3-XXXXXXXX   ONLINE       0     0     0
            disk4-XXXXXXXX   ONLINE       0     0     0
            disk5-XXXXXXXX   ONLINE       0     0     0
            disk6-XXXXXXXX   ONLINE       0     0     0
            disk7-XXXXXXXX   ONLINE       0     0     0
            disk8-XXXXXXXX   ONLINE       0     0     0
            disk9-XXXXXXXX   ONLINE       0     0     0
            disk10-XXXXXXXX  ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0

In /var/log/kern.log wel geen errors meer mbt I/O errors.

Ik snap er niks van

Acties:

0 Henk 'm!

Verwijderd

denk dat er maar 1 vlak is qua verdachte hardware namelijk de controller(s) en wel om het feit dat 2 disks dezelfde foute sectoren hebben, zag ik ook al en vanaalten meldde het ook nog:

vanaalten schreef op woensdag 20 januari 2016 @ 12:32:
[...]

Ik weet niet wat je met 'dit' precies bedoelde, maar het valt mij op dat je dezelfde sectorwaarde bij meerdere disks voorbij ziet komen. Lijkt mij sterk dat sda, sdb en sdf tegelijk kapot gaan en nog wel op dezelfde sector ook, om maar wat te noemen.

weet niet of je (storage)vriendjes hebt die ter test ende leering de controllers tijdelijk kunnen swappen?

donderdag 21 januari 2016 11:29

Acties:

0 Henk 'm!

donderdag 21 januari 2016 11:33

Heb er nog wel een liggen voor hem, maar hij woont op 90 minuten rijafstand

Ik had al het advies om de controller eens in een ander PCIe poortje te plaatsen.

Het zit nu:

x16 fysiek -> x8 praktisch -> Controller A -> Komt van CPU
x8 fysiek -> x4 praktisch -> leeg -> Komt van CPU
x8 fysiek -> x4 praktisch -> Controller B -> komt van Chipset.

Dus controller B 1 poortje omhoog, en dan nog eens testen.

Even niets...

Acties:

0 Henk 'm!

zaterdag 23 januari 2016 12:15

Topicstarter

FireDrunk heeft nog een controller liggen en had deze al aangeboden ter test.

Indien nodig kan ik ook een paar poorten vrijmaken op mijn moederbord zelf en tezamen met vrije poorten op de overblijvende controller heb ik er genoeg om te draaien op slechts één insteek-controller. Ik zal vanavond een schematische voorstelling posten met serienummers erbij om te illustreren welke disk op welke controller hangt, want de fouten die we zien hebben zich voorgedaan op disks zowel op controller 1 als controller 2. Dat laatste vind ik echt wel raar, tenzij het aan de driver heeft gelegen...(?)

EDIT: Scrub snelheid is er precies ook niet op vooruitgegaan als je vergelijkt met mijn eerste post vs nu en de tussentijdse statistieken van de scrub ergens in het midden

.

Vanavond maar eens omgooien.

EDIT2: Scrub zit op 85% en tot nog toe geen errors... Nog geen controllers omgewisseld van slot.

[ Voor 20% gewijzigd door HyperBart op 21-01-2016 20:08 ]

Acties:

0 Henk 'm!

zaterdag 23 januari 2016 12:39

Topicstarter

Ondertussen nog eens een scrub laten lopen, deze zat wel weer terug op snelheid, afgetopt op 842MB/s en dit zonder fouten.

Ik heb er nu nog eentje gestart, als die zonder fouten terugkomt vraag ik me af of het wel nog zo zinnig is om de controller om te wisselen? Wil het gerust doen, maar als jullie ook van mening zijn dat het probleem opgelost is dan laat ik het liever zo. Als het uitsluitsel geeft dan graag hoor, maar zoals het nu lijkt heb ik het idee dat ik het in de nabije toekomst niet direct ga tegenkomen.

Wel even een sidenote: beide zijpanelen van de kast zijn nu verwijderd, de disk temperatuur varieert over de 10 disks van 29 tot 38 graden waar het merendeel (5) tussen 32 en 34 zit maar de controllers kan ik natuurlijk niet bepalen.

Acties:

0 Henk 'm!

jbhc

Zijpanelen verwijderen heeft natuurlijk een behoorlijk invloed op de temperatuur

zaterdag 23 januari 2016 12:42

Acties:

0 Henk 'm!

dinsdag 26 januari 2016 16:59

Topicstarter

Op disks in alle geval niet, dat kan ik factueel bewijzen dat 'm dat max een graadje ofzo scheelt, met de veranderende temperaturen op die kamer is dat te verwaarlozen, door de dag en 's nachts is het daar ijskoud, alleen 's avonds gaat de verwarming door een defectje daar altijd mee aan.

Op de controllers misschien maar dat kan ik in ieder geval niet bewijzen.

Zal de panelen er eens terug tegen zetten nu.

Acties:

0 Henk 'm!

dinsdag 26 januari 2016 19:39

Topicstarter

Enkele dagen en wat scrubs verder.

Vandaag na een langere periode van "rust" terug opnieuw een scrub gestart vanmorgen en lo and behold:


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Tue Jan 26 10:30:30 2016
    17.2T scanned out of 20.1T at 782M/s, 1h6m to go
    4K repaired, 85.15% done
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     0
            disk2-xxxxxxxx   ONLINE       0     0     1  (repairing)
            disk3-xxxxxxxx   ONLINE       0     0     0
            disk4-xxxxxxxx   ONLINE       0     0     0
            disk5-xxxxxxxx   ONLINE       0     0     0
            disk6-xxxxxxxx   ONLINE       0     0     0
            disk7-xxxxxxxx   ONLINE       0     0     0
            disk8-xxxxxxxx   ONLINE       0     0     0
            disk9-xxxxxxxx   ONLINE       0     0     0
            disk10-xxxxxxxx  ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0

Vanavond gaan de controllers om, for sure.

Acties:

0 Henk 'm!

zaterdag 30 januari 2016 17:15

Au Contraire Mon Capitan!

Zie je ook een disk event met die scrub en die enkele checksum error?

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 13:56

Topicstarter

Zonet de controllers geswapped, scrub gestart.

Laatste scrub(s) liepen zonder problemen toen controller nog niet geswapped was. Ga na een goede run van één scrub eens retesten door tijdens een scrub een manuele spindown commando te geven.

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 14:34

Topicstarter

Ondertussen weer wat verder, zoals laatst gepost is de controller een plaatsje omhoog gegaan en zitten ze nu vlak onder elkaar, op 8 februari heeft er een scrub gelopen (sinds de problemen en laatste post hierboven heb ik het op wekelijks staan) en er zijn weer checksum errors:

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 144K in 7h55m with 0 errors on Mon Feb  8 09:55:51 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     2
            disk2-xxxxxxxx   ONLINE       0     0     1
            disk3-xxxxxxxx   ONLINE       0     0     1
            disk4-xxxxxxxx   ONLINE       0     0     1
            disk5-xxxxxxxx   ONLINE       0     0     1
            disk6-xxxxxxxx   ONLINE       0     0     2
            disk7-xxxxxxxx   ONLINE       0     0     0
            disk8-xxxxxxxx   ONLINE       0     0     1
            disk9-xxxxxxxx   ONLINE       0     0     0
            disk10-xxxxxxxx  ONLINE       0     0     0
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0

Errors verspreiden zich ook over 7 disks van de 10, dus het is over meerdere controllers.

[ Voor 6% gewijzigd door HyperBart op 09-02-2016 14:02 ]

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 14:57

Hmm. ik begin toch je CPU te verdenken... Maar het rare is, dat je dan wel wat kernel meldingen zou moeten zien over PCIe CRC errors gok ik...

Vreemd verhaal...

Even niets...

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 15:20

Topicstarter

Ik kan als last resort nog zoveel mogelijk disks aansluiten op de onboard SATA?

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 15:34

Tis dat het niet zo makkelijk te doen is, maar ik zou haast zeggen. Kom langs en hang je pool in mijn server voor een paar dagen (of weken

).

Maar dan zie ik al je vakantiekiekjes

Even niets...

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 15:51

Au Contraire Mon Capitan!

Zijn de controllers nu goed gekoeld?

Dit is echt super raar. Kan alleen moederbord, CPU of RAM zijn zou ik zeggen.
Maar als het ram/cpu is dan zou die hele box moeten crashen zo nu en dan.

Super gek maar kan zelfs ook nog software issue zijn, andere kernel / zfs draaien?

Brakke voeding?

[ Voor 3% gewijzigd door Q op 09-02-2016 15:34 ]

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 15:59

Topicstarter

Q schreef op dinsdag 09 februari 2016 @ 15:34:
Zijn de controllers nu goed gekoeld?

Neen, ook niet zo evident om dat klaar te krijgen aangezien ik nergens een mogelijkheid heb om na mijn disks een fan te plaatsen om de airflow hoog genoeg te houden om de heatsinks af te koelen.

Dit is echt super raar. Kan alleen moederbord, CPU of RAM zijn zou ik zeggen.
Maar als het ram/cpu is dan zou die hele box moeten crashen zo nu en dan.

Ja, lijkt mij ook.

Super gek maar kan zelfs ook nog software issue zijn, andere kernel / zfs draaien?

Brakke voeding?

Kan eens een ZFSguru live draaien, maar hoe lang dan ook weer, wanneer doet het issue zich voor etc etc.

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 16:09

Au Contraire Mon Capitan!

Kun je een deel van de disks op de on-board controller zetten en je resilves nog een paar keer draaien ?
Als die disks dan consistent geen errors laten zien, weet je dat het iets met de controllers of PCIe bus is.

Echter, als jij die M1015 kaarten niet actief koelt, dan raad ik het aan om dat toch als eerste te gaan regelen, hoe dan ook.

Zoals ik het zie: als je die kaarten niet actief koelt dan heeft op dit moment verder zoeken niet zoveel zin.

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 16:18

Onboard controller zit toch ook achter PCIe? (in de vorm van DMI, wat gewoon een soort PCIe is)

Andere ZFS versie is misschien wel een idee...

Even niets...

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 21:20

Topicstarter

Allemaal heel valide punten maar blijf het wel nog altijd beetje raar vinden dat dit nu ineens de kop op steekt. Heb zonet met een quick fix een stukje karton vastgemaakt op een fan die ik onder de controllers had gemount zodat de airflow die naar boven geblazen wordt net voor de laatste kaart tussen de bovenste en de onderste kaart wordt geblazen, het is maar een klein zuchtje vermoed ik maar het hoeft niet veel te zijn.

De fan blaast eigenlijk een luchtstroom recht tegen de onderste controller en de fan zit op een bracket tegen de achterkant van de kast. Dus de luchstroom blaast ook niet recht onder de heatsinks. Door dat ze een beetje overlappen heeft de onderste controller wel een goede luchtstroom maar ik kan niet vaststellen of de controller erboven veel gekoeld wordt, ik vermoed van wel door de quickfix van hierboven, jammere is daar dan ook weer dat de heatsink net verkeerd om staat om de luchstroom optimaal tussen de koelvinnen te krijgen.

[ Voor 36% gewijzigd door HyperBart op 09-02-2016 16:22 ]

Acties:

0 Henk 'm!

dinsdag 9 februari 2016 22:07

Au Contraire Mon Capitan!

Is mijn optie qua fan met een top-down koeler zoals in mijn 71 TB machine niet mogelijk? (zie link signature)

Acties:

0 Henk 'm!

woensdag 10 februari 2016 04:15

Topicstarter

Ik heb wel niet zoveel ruimte tussen mijn zijpaneel en de controllers als jij tussen je top plate en de kaarten, maar het is zeker een goede manier.

Met welk beugeltje heb jij die fan zo 'hangen'? Want dat is nu mijn uitdaging...

Edit: zoiets dus http://www.ebay.com/itm/P...unt-bracket-/251710287692

[ Voor 27% gewijzigd door HyperBart op 09-02-2016 22:32 ]

Acties:

0 Henk 'm!

woensdag 10 februari 2016 06:15

Au Contraire Mon Capitan!

pricewatch: Zalman FB123, 92mm

Misschien deze?

pricewatch: Zalman ZM-SC100

Je zou zover kunnen gaan dat je een ventilator in je zijpaneel monteert (dremel in paneel zetten dus).

[ Voor 19% gewijzigd door Q op 10-02-2016 04:16 ]

Acties:

0 Henk 'm!

woensdag 10 februari 2016 09:27

Kan je niet ergens zo'n laser thermometer lenen? En gewoon eens meten of dat wel het probleem is.

Als je een flinke airflow van voor naar achter hebt kan ik me niet voorstellen dat die kaarten echt zo heet worden dat ze fouten gaan maken...

Even niets...

Acties:

0 Henk 'm!

woensdag 10 februari 2016 12:12

Topicstarter

Je kent mijn kast toch? Die muur van 4 disks houdt gewoon al het merendeel tegen van de lucht tegen, vanboven heb je dan nog wel die grote low RPM fan maar das nu ook niet om te zeggen dat die flow onder die kaarten genereert.

Acties:

0 Henk 'm!

vrijdag 19 februari 2016 15:33

De Operational Temperature van dat ding is 95 graden... Voordat je kaartje dat bereikt, ben je denk ik wel iets verder...

Even niets...

Acties:

0 Henk 'm!

vrijdag 19 februari 2016 20:34

Topicstarter

Q schreef op dinsdag 09 februari 2016 @ 15:59:
Kun je een deel van de disks op de on-board controller zetten en je resilves nog een paar keer draaien ?
Als die disks dan consistent geen errors laten zien, weet je dat het iets met de controllers of PCIe bus is.

Dit wordt het volgende om te testen.

Echter, als jij die M1015 kaarten niet actief koelt, dan raad ik het aan om dat toch als eerste te gaan regelen, hoe dan ook.

Zoals ik het zie: als je die kaarten niet actief koelt dan heeft op dit moment verder zoeken niet zoveel zin.

Cooling is nu al een tijdje in orde, dus die kaarten kunnen sowieso niet TE warm worden, genomen het feit dat als wat FireDrunk hier postte correct is, dat ik me er dan al helemaal geen zorgen om moet maken.

En toch weer:

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 48K in 8h0m with 0 errors on Mon Feb 15 10:00:31 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-XXXXXXXX   ONLINE       0     0     0
            disk2-XXXXXXXX   ONLINE       0     0     0
            disk3-XXXXXXXX   ONLINE       0     0     1
            disk4-XXXXXXXX   ONLINE       0     0     0
            disk5-XXXXXXXX   ONLINE       0     0     0
            disk6-XXXXXXXX   ONLINE       0     0     1
            disk7-XXXXXXXX   ONLINE       0     0     0
            disk8-XXXXXXXX   ONLINE       0     0     3
            disk9-XXXXXXXX   ONLINE       0     0     1
            disk10-XXXXXXXX  ONLINE       0     0     1
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0

Dit was tijdens een van mijn scheduled scrubs, dus niks manueel gestart, scrub zoals hij altijd goed liep...

[ Voor 19% gewijzigd door HyperBart op 19-02-2016 15:59 ]

Acties:

0 Henk 'm!

vrijdag 19 februari 2016 21:13

Au Contraire Mon Capitan!

De SATA kabels checken/vervangen?
Kernel / zfs module vervangen / upgraden?

[ Voor 39% gewijzigd door Q op 19-02-2016 20:35 ]

Acties:

0 Henk 'm!

jacovn

Ik koel mijn m1015 kaarten net zo als Q. Een 140 mm zelfs in een kast op laag toerental. Dat zijn dan 2x M1015 en een 10 GE netwerk kaart.

Je krijgt echt vage errors op die m1015 kaarten als ze te warm worden is mijn ervaring.

[ Voor 24% gewijzigd door jacovn op 19-02-2016 21:14 ]

8x330 NO12.5°, 8x330 ZW12.5°, 8x350 ZW60°, 8x325 NO10°, SE8K, P500. 6x410 ZW10° Enphase

vrijdag 19 februari 2016 21:15

Acties:

0 Henk 'm!

Verwijderd

Daarom beter een goede AHCI controller.

Ik skip even het topic met deze vraag, maar toch: had je nou al getest met een deel van de disks op je chipset AHCI controller? Zo ja, hebben die ook checksum errors? Je dient namelijk ook de controller (en diens drivers) uit te sluiten. Zomaar je CPU verdenken vind ik twijfelachtig. Als je CPU instabiel zou zijn, zou je dat ook aan vage crashes/BSODs/panics moeten zien en niet alleen checksum errors. Dat zou eerder aan je RAM, controller of drivers/softwaresetup te wijten zijn.

vrijdag 19 februari 2016 23:29

Acties:

0 Henk 'm!

zaterdag 20 februari 2016 11:53

Au Contraire Mon Capitan!

Aangenomen dat dit linux is zou ik zeker een nieuwe kernel + de meest recente ZFS module voor het OS pakken. Wat voor distro is dit?

Als je nog steeds die I/O errors krijgt op de disks dan heeft het IIG niets met ZFS zelf te maken maar met de onderliggende kernel zooi. Daarom zou een andere kernel/OS interessant kunnen zijn.

Zou je eens ./show disk -msC kunnen runnen?

code:

root@nano:~# show disk -msC
--------------------------------------------
| Dev | Model                 | GB   | CRC |   
--------------------------------------------
| sda | HGST HDS724040ALE640  | 4000 | 0   |   
| sdb | HGST HDS724040ALE640  | 4000 | 0   |   
| sdc | HGST HDS724040ALE640  | 4000 | 0   |   
| sdd | HGST HDS724040ALE640  | 4000 | 0   |   
| sde | HGST HDS724040ALE640  | 4000 | 0   |   
| sdf | HGST HDS724040ALE640  | 4000 | 0   |   
| sdg | HGST HDS724040ALE640  | 4000 | 0   |   
| sdh | HGST HDS724040ALE640  | 4000 | 0   |   
| sdi | HGST HDS724040ALE640  | 4000 | 0   |   
| sdj | HGST HDS724040ALE640  | 4000 | 0   |   
| sdk | HGST HDS724040ALE640  | 4000 | 0   |   
| sdl | HGST HDS724040ALE640  | 4000 | 0   |   
| sdm | HGST HDS724040ALE640  | 4000 | 0   |   
| sdn | HGST HDS724040ALE640  | 4000 | 0   |   
| sdo | HGST HDS724040ALE640  | 4000 | 0   |   
| sdp | HGST HDS724040ALE640  | 4000 | 0   |   
| sdq | HGST HDS724040ALE640  | 4000 | 0   |   
| sdr | HGST HDS724040ALE640  | 4000 | 0   |   
| sds | HGST HDS724040ALE640  | 4000 | 0   |   
| sdt | HGST HDS724040ALE640  | 4000 | 0   |   
| sdu | HGST HDS724040ALE640  | 4000 | 0   |   
| sdv | HGST HDS724040ALE640  | 4000 | 0   |   
| sdw | HGST HDS724040ALE640  | 4000 | 0   |   
| sdx | HGST HDS724040ALE640  | 4000 | 0   |   
| sdy | Crucial_CT120M500SSD1 | 120  | 0   |   
| sdz | Crucial_CT120M500SSD1 | 120  | 0   |   
--------------------------------------------

[ Voor 7% gewijzigd door Q op 19-02-2016 23:33 ]

Acties:

0 Henk 'm!

donderdag 25 februari 2016 15:02

Hij zit op Ubuntu 14.04.2 uit mijn hoofd

(ZFS 0.6.2 denk ik zo)
Kernel 3.13.

Ik had ook al een kernel upgrade voorgesteld.

Even niets...

Acties:

0 Henk 'm!

donderdag 25 februari 2016 17:13

Topicstarter

root@nas:~# uname -a
Linux nas 3.13.0-77-generic #121-Ubuntu SMP Wed Jan 20 10:50:42 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux

root@nas:~# lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 14.04.3 LTS
Release:        14.04
Codename:       trusty

ZFS versie kan ik niet zo snel opsnorren(?)

dist-upgrade en consoorten geven niets, wat doe ik om de kernel te upgraden, zoiets?

sudo apt-get install linux-generic-lts-vivid

Begin ook het idee te krijgen dat de fouten vaker beginnen voor te komen (zie disk 8 en 10)

code:

  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
        attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
        using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 128K in 8h5m with 0 errors on Mon Feb 22 10:06:02 2016
config:

        NAME                 STATE     READ WRITE CKSUM
        stavanger            ONLINE       0     0     0
          raidz2-0           ONLINE       0     0     0
            disk1-xxxxxxxx   ONLINE       0     0     1
            disk2-xxxxxxxx   ONLINE       0     0     1
            disk3-xxxxxxxx   ONLINE       0     0     2
            disk4-xxxxxxxx   ONLINE       0     0     0
            disk5-xxxxxxxx   ONLINE       0     0     0
            disk6-xxxxxxxx   ONLINE       0     0     1
            disk7-xxxxxxxx   ONLINE       0     0     1
            disk8-xxxxxxxx   ONLINE       0     0     4
            disk9-xxxxxxxx   ONLINE       0     0     2
            disk10-xxxxxxxx  ONLINE       0     0     3
        cache
          PART-EVO250-L2ARC  ONLINE       0     0     0

[ Voor 58% gewijzigd door HyperBart op 25-02-2016 15:14 ]

Acties:

0 Henk 'm!

dinsdag 8 maart 2016 09:41

Au Contraire Mon Capitan!

dpkg -l | grep -i zfs geeft je wel een zfs versie.

Haal je boot schijven uit het systeem en bewaar die. Stop een nieuwe schijf in je systeem en installeer een ander OS, Debian, CentOS of FreeBSD, waar je comfortabel mee bent, gooi ZFS er op en mount + scrub de pool een paar keer.

Acties:

0 Henk 'm!

donderdag 10 maart 2016 19:39

Topicstarter

Q schreef op donderdag 03 maart 2016 @ 10:01:
Is deze nieuwe hardware nu een poging om die CRC errors op te lossen ofzo?

FireDrunk schreef op donderdag 03 maart 2016 @ 10:02:
Dat was HyperBart

Die heeft het de laatste tijd wat druk gehad

.

CRC errors hebben zich nog een beetje opgestapeld en 96K is gerepaired. Ik reset ze voorlopig ook niet tot nader order.

Dit weekend gaan er wat kabeltjes om naar het moederbord om het een en het ander uit te sluiten.

Acties:

0 Henk 'm!

SanderH_

Verkeerde topic

[ Voor 160% gewijzigd door SanderH_ op 10-03-2016 19:43 ]

zondag 13 maart 2016 11:38

Acties:

0 Henk 'm!

vrijdag 18 maart 2016 09:52

Topicstarter

Ziezo, zonet 3 (disk7, disk8, disk9) van de 10 disks (diegenen met de meeste CRC errors) omgeprikt naar de onboard SATA controller. Meer kon ik nu niet vrijmaken zonder config-changes (Boot SSD, L2ARC, Download SSD).

Scrub loopt nu, keep you posted.

EDIT:
eerste scrub is teruggekomen met errors op
disk 6

geen errors voorlopig op
disk 7
disk 8
disk 9

Voorlopig via cron een dagelijkse scrub ingesteld, kwestie om sneller hits te krijgen indien er zich nog fouten voordoen.

Q schreef op donderdag 25 februari 2016 @ 17:13:
dpkg -l | grep -i zfs geeft je wel een zfs versie.

Haal je boot schijven uit het systeem en bewaar die. Stop een nieuwe schijf in je systeem en installeer een ander OS, Debian, CentOS of FreeBSD, waar je comfortabel mee bent, gooi ZFS er op en mount + scrub de pool een paar keer.

ZFS versie is wat verouderd dan heb ik de indruk?

root@nas:~# dpkg -l | grep -i zfs
ii  dkms                                                        2.2.0.3-1.1ubuntu5.14.04.1+zfs10~trusty all          Dynamic Kernel Module Support Framework
rc  libzfs1                                                     0.6.2-2~trusty                          amd64        Native ZFS filesystem library for Linux
ii  libzfs2                                                     0.6.5.4-1~trusty                        amd64        Native OpenZFS filesystem library for Linux
rc  libzpool1                                                   0.6.2-2~trusty                          amd64        Native ZFS pool library for Linux
ii  libzpool2                                                   0.6.5.4-1~trusty                        amd64        Native OpenZFS pool library for Linux
ii  mountall                                                    2.53-zfs1                               amd64        filesystem mounting tool
ii  ubuntu-zfs                                                  8~trusty                                amd64        Native ZFS filesystem metapackage for Ubuntu.
ii  zfs-dkms                                                    0.6.5.4-1~trusty                        amd64        Native OpenZFS filesystem kernel modules for Linux
ii  zfs-doc                                                     0.6.5.4-1~trusty                        amd64        Native OpenZFS filesystem documentation and examples.
ii  zfsutils                                                    0.6.5.4-1~trusty                        amd64        Native OpenZFS management utilities for Linux

rc  libzfs1                                                     0.6.2-2~trusty                          amd64        Native ZFS filesystem library for Linux

0.6.2.2 is dan mijn ZFS versie, correct?

[ Voor 106% gewijzigd door HyperBart op 17-03-2016 15:51 ]

Acties:

0 Henk 'm!

vrijdag 18 maart 2016 11:09

Topicstarter

Ik heb de afgelopen dagen ongeveer een stuk of 5 à 6 scrubs gestart en met uitzondering van één keer een CKSUM error bij de eerste scrub, zijn er geen fouten meer opgetreden.

Er zijn 2 dingen veranderd tov de scrubs met fouten:

Een reboot (dus spindown staat niet meer aan)
3 disks van de 10 hangen op een onboard controller

Ik begin stiekem spindown te verdenken, maar ik begrijp niet hoe dat een invloed kan hebben op scrubs? ZFS moet toch gewoon wachten op de IO, en die IO komt pas als de disk opgespind is? Of heeft het iets te maken met het feit dat de disks op de een of andere manier te hard in spindown worden geduwd en dat er bepaalde data nog niet is weggeschreven naar de disks? Kunnen we dit factueel vaststellen?

Acties:

0 Henk 'm!

vrijdag 18 maart 2016 11:18

0.6.2.2 is wel *heel* oud

We zitten inmiddels op 0.6.5.5.

0.6.2 is van Augustus 2013

[ Voor 7% gewijzigd door FireDrunk op 18-03-2016 11:09 ]

Even niets...

Acties:

0 Henk 'm!

vrijdag 18 maart 2016 12:16

Au Contraire Mon Capitan!

Spindown zou wel eens een hele goede kandidaat kunnen zijn. Als je test, raad ik je wel aan om slechts 1 ding tegelijk te wijzigen want anders weet je niet welke wijziging de oorzaak van een verandering is.

Prik de disks maar eens terug op de controller en hou spindown uitgeschakeld.

Acties:

0 Henk 'm!

vrijdag 18 maart 2016 12:42

Dat riep ik een week of 10 geleden ook al

Even niets...

Acties:

0 Henk 'm!

Ultra

HyperBart schreef op zondag 13 maart 2016 @ 11:38:
ZFS versie is wat verouderd dan heb ik de indruk?
rc  libzfs1                                                     0.6.2-2~trusty                          amd64        Native ZFS filesystem library for Linux
0.6.2.2 is dan mijn ZFS versie, correct?

'rc' betekent dat-ie verwijderd is, dus nee.

# dpkg -l | head
Desired=Unknown/Install/Remove/Purge/Hold
| Status=Not/Inst/Conf-files/Unpacked/halF-conf/Half-inst/trig-aWait/Trig-pend
|/ Err?=(none)/Reinst-required (Status,Err: uppercase=bad)
||/ Name                           Version                      Architecture Description
+++-==============================-============================-============-============================================================

# dpkg | grep zfs
ii  debian-zfs                     7~jessie                     amd64        Native ZFS filesystem metapackage for Debian.
ii  libzfs2                        0.6.5.2-2                    amd64        Native ZFS filesystem library for Linux
ii  zfs-dkms                       0.6.5.2-2                    all          Native ZFS filesystem kernel modules for Linux
ii  zfsonlinux                     6                            all          archive.zfsonlinux.org trust package
ii  zfsutils                       0.6.5.2-2                    amd64        command-line tools to manage ZFS filesystems

Je zou ook een geheugenreepje eruit kunnen halen, en nadat het weer fout is gegaan de ander proberen (in een andere sleuf). Kans dat dat het is lijkt erg klein, maar het is eenvoudig te proberen.

vrijdag 18 maart 2016 18:37

Acties:

0 Henk 'm!

vrijdag 18 maart 2016 20:04

Topicstarter

Wat is dan nu volgens jullie mijn huidige versie van ZFS, ik krijg wat tegenstrijdig berichten?

FireDrunk schreef op vrijdag 18 maart 2016 @ 12:16:
Dat riep ik een week of 10 geleden ook al

Helemaal gelijk natuurlijk, maar toen waren er nog wat meer fouten dan die ene die ik nu alleen maar had.

Spindown moet ik telkens manueel na een reboot aanzetten, dat is de reden dat er zogenaamd nu twee dingen gewijzigd zijn.

[ Voor 11% gewijzigd door HyperBart op 18-03-2016 18:38 ]

Acties:

0 Henk 'm!

Ultra

0.6.5.4-1 lijkt me.

woensdag 30 maart 2016 14:46

Acties:

0 Henk 'm!

woensdag 30 maart 2016 15:52

Topicstarter

Dit is een maandje lang aan logs en outputs van zpool:

code:

01-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
02-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
03-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
04-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
05-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
06-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 160K in 7h57m with 0 errors on Mon Feb 29 09:57:18 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     1
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
07-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Mon Mar  7 02:00:11 2016
    2.47T scanned out of 20.8T at 722M/s, 7h24m to go
    0 repaired, 11.87% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     2
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     2
        disk9-XXXXXXXX   ONLINE       0     0     3
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
08-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
09-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
10-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
11-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 96K in 8h3m with 0 errors on Mon Mar  7 10:03:17 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     1
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     3
        disk9-XXXXXXXX   ONLINE       0     0     5
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
12-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 64K in 8h7m with 0 errors on Fri Mar 11 17:18:51 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     2
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     4
        disk9-XXXXXXXX   ONLINE       0     0     6
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
13-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 64K in 8h7m with 0 errors on Fri Mar 11 17:18:51 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     1
        disk2-XXXXXXXX   ONLINE       0     0     1
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     2
        disk5-XXXXXXXX   ONLINE       0     0     3
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     3
        disk8-XXXXXXXX   ONLINE       0     0     4
        disk9-XXXXXXXX   ONLINE       0     0     6
        disk10-XXXXXXXX  ONLINE       0     0     1
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
15-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Tue Mar 15 01:00:02 2016
    4.76T scanned out of 20.9T at 693M/s, 6h46m to go
    0 repaired, 22.79% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
16-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Wed Mar 16 01:00:02 2016
    5.81T scanned out of 20.9T at 846M/s, 5h11m to go
    0 repaired, 27.79% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
17-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Thu Mar 17 01:00:02 2016
    4.47T scanned out of 20.9T at 651M/s, 7h21m to go
    0 repaired, 21.38% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
18-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 0 in 9h46m with 0 errors on Fri Mar 18 01:32:54 2016
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
19-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Sat Mar 19 01:00:02 2016
    5.35T scanned out of 20.9T at 779M/s, 5h49m to go
    0 repaired, 25.55% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
20-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Sun Mar 20 01:00:02 2016
    5.01T scanned out of 21.0T at 730M/s, 6h21m to go
    0 repaired, 23.91% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
21-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Mon Mar 21 01:00:01 2016
    5.34T scanned out of 21.0T at 778M/s, 5h50m to go
    0 repaired, 25.50% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
22-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Tue Mar 22 01:00:01 2016
    5.82T scanned out of 21.0T at 847M/s, 5h12m to go
    0 repaired, 27.74% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
23-03-2016/03:00


  pool: stavanger
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub in progress since Wed Mar 23 01:00:02 2016
    5.23T scanned out of 21.0T at 762M/s, 6h1m to go
    0 repaired, 24.94% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     1
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
24-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Thu Mar 24 01:00:01 2016
    4.60T scanned out of 21.0T at 670M/s, 7h6m to go
    0 repaired, 21.96% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
25-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Fri Mar 25 01:00:01 2016
    5.81T scanned out of 21.0T at 846M/s, 5h13m to go
    0 repaired, 27.71% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
26-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Sat Mar 26 01:00:02 2016
    5.20T scanned out of 21.0T at 757M/s, 6h4m to go
    0 repaired, 24.79% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
27-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Sun Mar 27 01:00:02 2016
    2.44T scanned out of 21.0T at 712M/s, 7h34m to go
    0 repaired, 11.65% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
28-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Mon Mar 28 01:00:01 2016
    4.47T scanned out of 21.0T at 651M/s, 7h23m to go
    0 repaired, 21.31% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
29-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Tue Mar 29 01:00:02 2016
    5.01T scanned out of 21.0T at 730M/s, 6h22m to go
    0 repaired, 23.87% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

errors: No known data errors
30-03-2016/03:00


  pool: stavanger
 state: ONLINE
  scan: scrub in progress since Wed Mar 30 01:00:02 2016
    5.02T scanned out of 21.0T at 731M/s, 6h21m to go
    0 repaired, 23.91% done
config:

    NAME                 STATE     READ WRITE CKSUM
    stavanger            ONLINE       0     0     0
      raidz2-0           ONLINE       0     0     0
        disk1-XXXXXXXX   ONLINE       0     0     0
        disk2-XXXXXXXX   ONLINE       0     0     0
        disk3-XXXXXXXX   ONLINE       0     0     0
        disk4-XXXXXXXX   ONLINE       0     0     0
        disk5-XXXXXXXX   ONLINE       0     0     0
        disk6-XXXXXXXX   ONLINE       0     0     0
        disk7-XXXXXXXX   ONLINE       0     0     0
        disk8-XXXXXXXX   ONLINE       0     0     0
        disk9-XXXXXXXX   ONLINE       0     0     0
        disk10-XXXXXXXX  ONLINE       0     0     0
    cache
      PART-EVO250-L2ARC  ONLINE       0     0     0

Vanaf 24/03 heb ik een zpool clear gedaan. Ik heb zonet vandaag met volgende commando's spindown terug ge-enabled:

code:

hdparm -S 240 /dev/disk/by-partlabel/disk1-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk2-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk3-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk4-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk5-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk6-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk7-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk8-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk9-XXXXXXXX
hdparm -S 240 /dev/disk/by-partlabel/disk10-XXXXXXXX

Acties:

0 Henk 'm!

woensdag 30 maart 2016 23:48

Had je al eens een poosje zonder L2ARC gedraaid?

Even niets...

Acties:

0 Henk 'm!

donderdag 31 maart 2016 09:24

Au Contraire Mon Capitan!

Wat is er nu veranderd dat de laatste paar scrubs geen errors gaven? Ik raak een beetje kwijt wat je nu aan het testen bent.

Die disk 6 die nog als enige een paar keer een error gaf, zat die op de controller of op het moederbord doen de scrub draaide?

[ Voor 34% gewijzigd door Q op 30-03-2016 23:48 ]

Acties:

0 Henk 'm!

maandag 23 mei 2016 13:28

Topicstarter

FireDrunk schreef op woensdag 30 maart 2016 @ 15:52:
Had je al eens een poosje zonder L2ARC gedraaid?

Neen(?)

Q schreef op woensdag 30 maart 2016 @ 23:48:
Wat is er nu veranderd dat de laatste paar scrubs geen errors gaven? Ik raak een beetje kwijt wat je nu aan het testen bent.

Spindown staat niet meer aan. Reden: na een reboot staat bij mij altijd spindown uit (hdparm.conf wordt sinds een tijdje om een of andere vage reden niet meer uitgelezen, of althans de commando's voor spindown daarin niet
Disk 7, 8 en 9 zitten niet meer op de M1015's/Dell maar onboard (zie hieronder)

Ik had graag gewild dat ik slechts één actie had ondernomen, maar door die reboot en er niet meer bij stil te staan dat spindown uit stond en de test resultaten al vervuild waren ben ik hier mee verder gegaan. Spindown staat nu sinds gisteren (zie vorige post) wel terug aan.

HyperBart schreef op zondag 13 maart 2016 @ 11:38:
(disk7, disk8, disk9) van de 10 disks

Deze disks zijn omgeprikt

Die disk 6 die nog als enige een paar keer een error gaf, zat die op de controller of op het moederbord doen de scrub draaide?

Op de controller

[ Voor 11% gewijzigd door HyperBart op 31-03-2016 09:33 ]

Acties:

0 Henk 'm!

maandag 23 mei 2016 13:43

Topicstarter

Q schreef op woensdag 30 maart 2016 @ 23:48:
Wat is er nu veranderd dat de laatste paar scrubs geen errors gaven? Ik raak een beetje kwijt wat je nu aan het testen bent.

Die disk 6 die nog als enige een paar keer een error gaf, zat die op de controller of op het moederbord doen de scrub draaide?

Ondertussen zijn we al een klein maandje verder en kan ik met een gerust hart zeggen dat de CKSUM errors verdwenen zijn, ik wil gerust nog even de disks terug omprikken en ze allemaal terug op de M1015's hangen, maar ik maak me sterk dat het aan spindown lag.

Dan rest natuurlijk wel nog één vraag: als spindown regelen via de eerdere commando's (zie paar posts terug) dit veroorzaakt, hoe kan ik dan op een ordentelijke manier spindown inregelen? Met een verbruik wat zomaar verdubbelt van 60 naar 120 wat tikt dat namelijk nogal door en is de benefit redelijk hoog om dit in orde te krijgen.

[ Voor 23% gewijzigd door HyperBart op 23-05-2016 13:28 ]

Acties:

Beste antwoord ✓
0 Henk 'm!

maandag 23 mei 2016 14:27

Au Contraire Mon Capitan!

Wat heb je nu precies aangepast wat kan verklaren dat je scrubs nu geen checksum errors meer geven?

Heb je de spindown uitgeschakeld? Is dat nu de conclusie, dat spindown deze issues geeft?

Acties:

0 Henk 'm!

maandag 23 mei 2016 16:49

Jup, dat was zijn conclusie... Ik vind het ook raar. Maar misschien is het een bugje in de firmware van de disks. Ik had al voorgesteld om te kijken of we hetzelfde gedrag kunnen reproduceren op bijvoorbeeld Hitachi's of WD's.

Even niets...

Acties:

0 Henk 'm!

woensdag 22 juni 2016 10:26

Au Contraire Mon Capitan!

Ik vraag me af of de errors meerder met timeouts en ZFS te maken hebben dan dat er 'echte' data corruptie optreedt. Zou eigenlijk eens met MDADM / scrubs en md5sum moeten testen

Acties:

0 Henk 'm!

dinsdag 8 december 2020 10:42

Topicstarter

Q schreef op maandag 23 mei 2016 @ 16:49:
Ik vraag me af of de errors meerder met timeouts en ZFS te maken hebben dan dat er 'echte' data corruptie optreedt. Zou eigenlijk eens met MDADM / scrubs en md5sum moeten testen

Ik dacht net dat we daarom ZFS zo leuk vonden, geen TLER disks enzo.

Ik heb op de setup van een goede vriend (20 x HGST) ook eens spindown aangezet, en daar doet het probleem zich (voorlopig) niet voor.

Wel bijzonder allemaal hoor, want die cksum errors zijn ook maar opeens beginnen opkomen, daarvoor had ik bijna anderhalf jaar geen probleem ofzo met spindown. Ik zou bijna gaan denken dat het gebeurt omdat de disks misschien meer opgevuld zijn oid

ZFS vangt het nu wel allemaal, maar het zou me toch wat meer gemoedsrust geven als ik het weg zou krijgen.

[ Voor 5% gewijzigd door HyperBart op 22-06-2016 10:27 ]

Acties:

+2 Henk 'm!

dinsdag 8 december 2020 13:12

Topicstarter

FireDrunk schreef op maandag 23 mei 2016 @ 14:27:
Jup, dat was zijn conclusie... Ik vind het ook raar. Maar misschien is het een bugje in de firmware van de disks. Ik had al voorgesteld om te kijken of we hetzelfde gedrag kunnen reproduceren op bijvoorbeeld Hitachi's of WD's.

Q schreef op maandag 23 mei 2016 @ 13:43:
Wat heb je nu precies aangepast wat kan verklaren dat je scrubs nu geen checksum errors meer geven?

Heb je de spindown uitgeschakeld? Is dat nu de conclusie, dat spindown deze issues geeft?

Na 4 jaar lang

geen enkel probleem gehad te hebben zonder spindown heb ik sinds een paar dagen spindown terug aan. De wekelijkse scrub kwam al met cksum errors waar dit voorheen nooit meer voorkwam. Ondertussen is ook de basishardware (cpu, mobo, mem) vervangen en een volledige fresh install dus het zit toch echt ergens in de afhandeling van spindown op de disks.

Binnen een aantal weken gaan er 6 nieuwe schijven bij in en daar ga ik dezelfde spindown op instellen en dan zien we wel weer verder.

@FireDrunk @Q

Acties:

0 Henk 'm!