Goedendag allen!
Ik ben op moment een beetje ten einde raad, dus hoop dat er iemand nog een advies heeft. (excuus als alles warrig overkomt, weet ook niet goed hoe ik het moet gaan beschrijven)
Sinds 2021 heb ik een unraid server draaien, deze draait op een Asrock rack epycd8-2t met een 7352 24/48 en 256gb ecc geheugen (Geheugen: 8x M393A4K40BB2-CTD op 2666mhz).
Sinds het begin heeft deze combinatie ECC corrected errors gehad, maar draaide verder wel stabiel. (dit wel getracht te analyseren door memory eruit te halen, maar de errors bleven alleen veranderde van slot).
Een weekje geleden had ik het idee om een VM te maken voor gaming, dus heb een 3050 aangeschaft en in de server geplaatst, dit leidde tot een harde reset op moment dat ik de VM startte. En toen begonnen de problemen pas echt...
Na die reset heb ik besloten om van een medetweaker een andere cpu over te nemen om mee te testen. Deze werkt normaal, met exact dezelfde symptomen op de ECC corrected / asserted errors.
Gisteravond heb ik alle pci-e dingen uit de server gehaald en een memtest86 uitgevoerd. Het enige wat op dat moment was aangesloten was de usb van unraid, 8 memory modules en de cpu. na 2,5 uur memtest, geen errors en passed. In deze tijd ook geen ECC errors in het logboek van de IPMI.
Na de test herstart naar unraid, binnen 5 minuten had ik weer ecc errors. Moederbord was op dat moment nog steeds leeg. Dus geen dingen aangesloten anders dan usb en een toetsenbord.
Prima, alles weer aangesloten (adaptec 16i en een lsi 8i), ook de hyper m.2 met 2x kingston 500gb nvme voor mijn cache.
Op de adaptec heb ik aansloten: 6x wd red 4tb (of ironwolf), 2x wd purple 2tb, 1x samsung ssd 1tb, 1x wd green 1tb, 1x kingston 240gb en 1x ocz-agility4 (ja ja, mijn aller eerste ssd werkt nog steeds)
op de lsi heb ik aangesloten: 2x 4tb ironwolf
De reden dat ik uberhaupt HBA's had, was vanwege I/O errors op de mini SAS van het mainboard (in den beginne).
oh, en op m.2-2 heb ik een coral TPU zitten, voor mijn beveiliging VM.
Ding aangezet, alles draaid weer, tot zojuist...
Vanuit het niets ineens erg instabiel. Terwijl ik in de GUI van unraid bezig ben zie ik alle SSD's wegvallen. Kort hierna gaan 1 parity schijf en 1 array disk offline / disabled. GUI toont allemaal errors op disken en het logboek wordt helemaal volgestauwd met errors van schijven.
Array geprobeerd te stoppen, lukt niet.. . . . tot ik een powerdown commando geef via de ipmi. unraid komt weer netjes op, maar om eerlijk te zijn, ik durf nu de array niet opnieuw op te bouwen vanwege de instabiliteit, maar ondertussen weet ik ook niet waar de instabiliteit vandaan komt.
----
TL:DR
instabiel systeem,
memory errors,
cpu vervangen,
zoveel mogelijk randapparatuur los gehad,
memtest86, passed na 2,5uur & 16uur
Help?
Ik ben op moment een beetje ten einde raad, dus hoop dat er iemand nog een advies heeft. (excuus als alles warrig overkomt, weet ook niet goed hoe ik het moet gaan beschrijven)
Sinds 2021 heb ik een unraid server draaien, deze draait op een Asrock rack epycd8-2t met een 7352 24/48 en 256gb ecc geheugen (Geheugen: 8x M393A4K40BB2-CTD op 2666mhz).
Sinds het begin heeft deze combinatie ECC corrected errors gehad, maar draaide verder wel stabiel. (dit wel getracht te analyseren door memory eruit te halen, maar de errors bleven alleen veranderde van slot).
Een weekje geleden had ik het idee om een VM te maken voor gaming, dus heb een 3050 aangeschaft en in de server geplaatst, dit leidde tot een harde reset op moment dat ik de VM startte. En toen begonnen de problemen pas echt...
Na die reset heb ik besloten om van een medetweaker een andere cpu over te nemen om mee te testen. Deze werkt normaal, met exact dezelfde symptomen op de ECC corrected / asserted errors.
Gisteravond heb ik alle pci-e dingen uit de server gehaald en een memtest86 uitgevoerd. Het enige wat op dat moment was aangesloten was de usb van unraid, 8 memory modules en de cpu. na 2,5 uur memtest, geen errors en passed. In deze tijd ook geen ECC errors in het logboek van de IPMI.
Na de test herstart naar unraid, binnen 5 minuten had ik weer ecc errors. Moederbord was op dat moment nog steeds leeg. Dus geen dingen aangesloten anders dan usb en een toetsenbord.
Prima, alles weer aangesloten (adaptec 16i en een lsi 8i), ook de hyper m.2 met 2x kingston 500gb nvme voor mijn cache.
Op de adaptec heb ik aansloten: 6x wd red 4tb (of ironwolf), 2x wd purple 2tb, 1x samsung ssd 1tb, 1x wd green 1tb, 1x kingston 240gb en 1x ocz-agility4 (ja ja, mijn aller eerste ssd werkt nog steeds)
op de lsi heb ik aangesloten: 2x 4tb ironwolf
De reden dat ik uberhaupt HBA's had, was vanwege I/O errors op de mini SAS van het mainboard (in den beginne).
oh, en op m.2-2 heb ik een coral TPU zitten, voor mijn beveiliging VM.
Ding aangezet, alles draaid weer, tot zojuist...
Vanuit het niets ineens erg instabiel. Terwijl ik in de GUI van unraid bezig ben zie ik alle SSD's wegvallen. Kort hierna gaan 1 parity schijf en 1 array disk offline / disabled. GUI toont allemaal errors op disken en het logboek wordt helemaal volgestauwd met errors van schijven.
Array geprobeerd te stoppen, lukt niet.. . . . tot ik een powerdown commando geef via de ipmi. unraid komt weer netjes op, maar om eerlijk te zijn, ik durf nu de array niet opnieuw op te bouwen vanwege de instabiliteit, maar ondertussen weet ik ook niet waar de instabiliteit vandaan komt.
----
TL:DR
instabiel systeem,
memory errors,
cpu vervangen,
zoveel mogelijk randapparatuur los gehad,
memtest86, passed na 2,5uur & 16uur
Help?