Iemand een idee wat hier aan de hand kan zijn?
ZFS has finished a scrub:
eid: 706766
class: scrub_finish
host: server
time: 2026-02-08 17:35:34+0100
pool: rpool
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see:
https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-9P
scan: scrub repaired 0B in 00:26:54 with 0 errors on Sun Feb 8 17:35:34 2026
config:
NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
nvme-Samsung_SSD_980_1TB_...-part2 ONLINE 1 0 0
errors: No known data errors
sudo zpool status -v rpool
pool: rpool
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: https://openzfs.github.io/openzfs-docs/msg/ZFS-8000-9P
scan: scrub repaired 0B in 00:26:54 with 0 errors on Sun Feb 8 17:35:34 2026
config:
NAME STATE READ WRITE CKSUM
rpool ONLINE 0 0 0
nvme-Samsung_SSD_980_1TB_...-part2 ONLINE 1 0 0
errors: No known data errorssudo smartctl -a /dev/nvme0n1
smartctl 7.4 2023-08-01 r5530 [x86_64-linux-6.12.63+deb13-amd64] (local build)
Copyright (C) 2002-23, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Number: Samsung SSD 980 1TB
Serial Number: ...
Firmware Version: 3B4QFXO7
PCI Vendor/Subsystem ID: 0x144d
IEEE OUI Identifier: 0x002538
Total NVM Capacity: 1,000,204,886,016 [1.00 TB]
Unallocated NVM Capacity: 0
Controller ID: 5
NVMe Version: 1.4
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,000,204,886,016 [1.00 TB]
Namespace 1 Utilization: 634,208,632,832 [634 GB]
Namespace 1 Formatted LBA Size: 512
Namespace 1 IEEE EUI-64: 002538 d921a464a9
Local Time is: Sun Feb 8 17:42:34 2026 CET
Firmware Updates (0x16): 3 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x0055): Comp DS_Mngmt Sav/Sel_Feat Timestmp
Log Page Attributes (0x0f): S/H_per_NS Cmd_Eff_Lg Ext_Get_Lg Telmtry_Lg
Maximum Data Transfer Size: 512 Pages
Warning Comp. Temp. Threshold: 82 Celsius
Critical Comp. Temp. Threshold: 85 Celsius
Namespace 1 Features (0x10): NP_Fields
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 5.24W - - 0 0 0 0 0 0
1 + 4.49W - - 1 1 1 1 0 0
2 + 2.19W - - 2 2 2 2 0 500
3 - 0.0500W - - 3 3 3 3 210 1200
4 - 0.0050W - - 4 4 4 4 1000 9000
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 50 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 15%
Data Units Read: 133,614,198 [68.4 TB]
Data Units Written: 201,506,067 [103 TB]
Host Read Commands: 753,983,584
Host Write Commands: 5,559,063,819
Controller Busy Time: 10,258
Power Cycles: 166
Power On Hours: 5,729
Unsafe Shutdowns: 79
Media and Data Integrity Errors: 1
Error Information Log Entries: 1
Warning Comp. Temperature Time: 7
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 50 Celsius
Temperature Sensor 2: 56 Celsius
Thermal Temp. 1 Transition Count: 28
Thermal Temp. 2 Transition Count: 1
Thermal Temp. 1 Total Time: 3524
Error Information (NVMe Log 0x01, 16 of 64 entries)
Num ErrCount SQId CmdId Status PELoc LBA NSID VS Message
0 1 2 0x0167 0xc502 0x000 780405208 1 - Unrecovered Read Error
Read Self-test Log failed: Invalid Field in Command (0x002)
Het leest voor mij eigenlijk voornamelijk als een random hickup waarbij een lees actie mislukte? Maar wel gek dat ZFS een error geeft maar geen errors geeft ("errors: No known data errors"). [small]Voorheen met oudere versies had ik regelmatig vage issues door snapshot send & receive. Die werden dan op 0x0 (letterlijk 0x0 dus, is geen placeholder) gemeld in een snapshot. Nu gewoon helemaal niks.
Nieuwe scrub in progess, die is nog zonder nieuwe errors.
Edit:
Overigens ter bevestiging:
Feb 08 17:42:26 server smartd[1467]: Device: /dev/nvme0, NVMe error count increased from 0 to 1 (1 new, 0 ignored, 0 unknown)
De smart error is dus echt van hetzelfde moment en niet oud.
Edit2:
Scrub afgerond, ZED heeft zich weer gemeld, maar is copy/paste. 1 read error op de SSD. Het SMART attribuut staat nog steeds op 1, en het SMART error log staat ook nog steeds op 1.
Ik heb nog een scrub gestart maar dat zal vast niks doen. (Het doet soms wel iets bij de error lijst meen ik, maar die is dus sowieso leeg

).
Maar mocht deze ook "succesvol" zijn ga ik uit van een kosmisch event en gooi ik er een "zpool clear" overheen.
Edit3:
Handmatige scrub-2 is klaar. Situatie is nog hetzelfde. 1 read error volgens ZFS (en pool is ook nog steeds in "error"). SMART attribuut staat nog steeds op 1 (en error log count staat ook nog steeds op 1).
Ik wacht hier nog even de reacties af maar lijkt mij een "random" error die te clearen is en weer vergeten kan worden 🤞🏻.
Nee, normaal ben ik niet van de "echte" emojis op GoT. Maar de GoT smilies zit geen gekruiste vingers in
[
Voor 8% gewijzigd door
RobertMe op 08-02-2026 18:29
]