Beste,
Een tijdje terug heb ik een nieuwe (zelfbouw) NAS samengesteld, dit op basis van:
pricewatch: Fujitsu D3644-B
pricewatch: Kingston A2000 500GB
pricewatch: Intel Core i3-9100 Boxed
pricewatch: Kingston KSM26ED8/16ME
Echter ervaar ik laatste dagen lockups van het systeem, waarbij de enige "fix" een reset is. Ik heb een keer na het aansluiten van een monitor errors gezien in relatie met de NVME drive, maar deze error helaas verder niet genoteerd dus die weet ik niet meer behalve dus "iets met NVME dat niet werkt(e)". Gevolg daarvan is echter dat ZFS waar (o.a.) het root filesystem de pool (rpool bij Proxmox) eruit gooit "Pool rpool has encountered an uncorrectable I/O failure and has been suspended." uit mijn hoofd (in ieder geval dat rpool suspended is). En dit heeft uiteraard als gevolg dat het hele systeem niet meer werkt en ik een reset moet doen.
Echter heb ik ook geen logging. Enerzijds heb ik het idee dat systemd / journald deze niet persistent doet opslaan (aangezien na een reboot er niks meer is), maar anderzijds vermoed ik dat in het geval van wel persistent opslaan die alsnog "de error" niet zal opslaan, want de disk doet/deed het niet en is door ZFS eruit gegooid.
Dingen die ik zelf al heb geprobeerd zijn, nouja, vrij weinig. Want ik heb geen idee waar te beginnen. Zoals aangegeven, ik heb 1x een error in relatie met de NVME drive gezien, en verder loopt het scherm vol met de ZFS errors (pool rpool suspended). Daarnaast heb ik dus geen logging waar iets uit kan blijken. En helaas heb ik niet eens concrete steps to reproduce.
Enige gok die ik heb is dat het te maken heeft met Docker, omdat beide dagen dat ik de errors had ik wat containers heb geupdate en geherstart. Waarbij ik de volgende (complexe
) setup draai:
1. Op Proxmox heb ik een unprivileged LXC container met alle trucjes om docker te draaien
2. Omdat in de LXC container ZFS niet werkt maak ik als "extra" een ZVOL aan
3. Deze ZVOL formateer ik met ext4
4. En het ZVOL wordt gemount op /var/lib/docker in de LXC container
Hierdoor kan Docker dus gewoon met overlayfs / de overlay2 driver werken. Maar of dit de I/O errors veroorzaakt heb ik geen idee van.
Overigens heb ik wel met smartctl de drive bekeken, maar daar blijkt "niks" uit. En heb ik dd een 100GB file laten schrijven (rechtstreeks op de rpool / in home drive binnen Proxmox).
Wie o wie kan mij dus hiermee helpen, of waar überhaupt te beginnen?
Mogelijke antwoorden hebben dan ook een bereik van concreet de NVME drive testen of deze faalt, tot andere hardware gerelateerde tips, tot aan tips om wel concrete informatie te krijgen over wat er mis gaat. Want Linux "ziet" dus wel iets en dumpt dat naar het scherm, maar aangezien ik het potentieel pas een half uur of nog later merk is het scherm al volgelopen met de ZFS errors m.b.t. suspended pool.
Alvast bedankt
Een tijdje terug heb ik een nieuwe (zelfbouw) NAS samengesteld, dit op basis van:
pricewatch: Fujitsu D3644-B
pricewatch: Kingston A2000 500GB
pricewatch: Intel Core i3-9100 Boxed
pricewatch: Kingston KSM26ED8/16ME
Echter ervaar ik laatste dagen lockups van het systeem, waarbij de enige "fix" een reset is. Ik heb een keer na het aansluiten van een monitor errors gezien in relatie met de NVME drive, maar deze error helaas verder niet genoteerd dus die weet ik niet meer behalve dus "iets met NVME dat niet werkt(e)". Gevolg daarvan is echter dat ZFS waar (o.a.) het root filesystem de pool (rpool bij Proxmox) eruit gooit "Pool rpool has encountered an uncorrectable I/O failure and has been suspended." uit mijn hoofd (in ieder geval dat rpool suspended is). En dit heeft uiteraard als gevolg dat het hele systeem niet meer werkt en ik een reset moet doen.
Echter heb ik ook geen logging. Enerzijds heb ik het idee dat systemd / journald deze niet persistent doet opslaan (aangezien na een reboot er niks meer is), maar anderzijds vermoed ik dat in het geval van wel persistent opslaan die alsnog "de error" niet zal opslaan, want de disk doet/deed het niet en is door ZFS eruit gegooid.
Dingen die ik zelf al heb geprobeerd zijn, nouja, vrij weinig. Want ik heb geen idee waar te beginnen. Zoals aangegeven, ik heb 1x een error in relatie met de NVME drive gezien, en verder loopt het scherm vol met de ZFS errors (pool rpool suspended). Daarnaast heb ik dus geen logging waar iets uit kan blijken. En helaas heb ik niet eens concrete steps to reproduce.
Enige gok die ik heb is dat het te maken heeft met Docker, omdat beide dagen dat ik de errors had ik wat containers heb geupdate en geherstart. Waarbij ik de volgende (complexe

1. Op Proxmox heb ik een unprivileged LXC container met alle trucjes om docker te draaien
2. Omdat in de LXC container ZFS niet werkt maak ik als "extra" een ZVOL aan
3. Deze ZVOL formateer ik met ext4
4. En het ZVOL wordt gemount op /var/lib/docker in de LXC container
Hierdoor kan Docker dus gewoon met overlayfs / de overlay2 driver werken. Maar of dit de I/O errors veroorzaakt heb ik geen idee van.
Overigens heb ik wel met smartctl de drive bekeken, maar daar blijkt "niks" uit. En heb ik dd een 100GB file laten schrijven (rechtstreeks op de rpool / in home drive binnen Proxmox).
Wie o wie kan mij dus hiermee helpen, of waar überhaupt te beginnen?
Mogelijke antwoorden hebben dan ook een bereik van concreet de NVME drive testen of deze faalt, tot andere hardware gerelateerde tips, tot aan tips om wel concrete informatie te krijgen over wat er mis gaat. Want Linux "ziet" dus wel iets en dumpt dat naar het scherm, maar aangezien ik het potentieel pas een half uur of nog later merk is het scherm al volgelopen met de ZFS errors m.b.t. suspended pool.
Alvast bedankt