Toon posts:

ECC fouten om de ~5 minuten en sporadische reboots

Pagina: 1

Acties:

1.056 views
Reageer

Onderwerpen

AMD Ryzen 5 Pro 4655G

geen prijs bekend

ASRock B550M Steel Legend

vanaf € 361,35

Moederborden Processors AMD Ryzen 5 ASRock

Vraag

maandag 23 juni 2025 22:22

Acties:

mycroes

Topicstarter

Beste tweakers,

Sinds enkele weken heb ik een Asrock B550M Steel Legend, Ryzen 5 Pro 4655G en 2x16GB SK Hynix ECC geheugen, allemaal aangeschaft via AliExpress. In de basis werkt het systeem, maar er is instabiliteit die ik niet kan verklaren.

Het systeem draait Proxmox VE, er zitten 2 M.2 SSD's in om van te booten, een SAS HBA met 4 HDD's en 2 HDD's op 2 van de onboard Sata aansluitingen. Ik had al een ander Proxmox systeem, de eerste keer dat ik bewust tegen problemen aanliep was bij het overzetten van VM's via Proxmox Backup Server naar dit systeem. De eerste 3 of 4 VM's gingen zonder problemen; maar tijdens het restoren van m'n HAOS backup was ineens de verbinding weg en bleek het systeem opnieuw te zijn opgestart. Ik had hiervoor al een keer Memtest86 (van Passmark) gedraaid, die liep z'n 4 test runs volledig af zonder fouten. Daarna had ik wel nog een BIOS update gedaan, dus nog maar een keer memtest86 laten draaien, opnieuw zonder problemen.

Ergens rond deze tijd viel me een foutmelding op (op de console, melding hier van later tijdstip):

code:

Jun 23 21:26:15 morpheus kernel: mce: [Hardware Error]: Machine check events logged
Jun 23 21:26:15 morpheus kernel: [Hardware Error]: Corrected error, no action required.
Jun 23 21:26:15 morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC18_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|->
Jun 23 21:26:15 morpheus kernel: [Hardware Error]: Error Addr: 0x00000000d886f140
Jun 23 21:26:15 morpheus kernel: [Hardware Error]: IPID: 0x0000009600150f00, Syndrome: 0x000080000a401203
Jun 23 21:26:15 morpheus kernel: [Hardware Error]: Unified Memory Controller Ext. Error Code: 0
Jun 23 21:26:15 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#1 (csrow:3 channel:1 page:0x11886f offset:0x140 g>
Jun 23 21:26:15 morpheus kernel: [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD

Online kon ik meer meldingen van i.c.m. R5 CPU's, waar o.a. verwezen wordt naar de geheugensnelheden. Ik heb de snelheid toen teruggezet van 3200MHz (automatisch) naar 3133. Het restoren van VMs bleek een goede trigger voor de reboots, maar met geheugen op 3133MHz leek dat opgelost.

Helaas bleef het probleem toch bestaan, maar misschien komt het wat minder vaak voor. Ik wist zelf niet zo goed wat ik van de foutmeldingen moest maken, al wist ik dat EDAC ECC gerelateerd is. Wat navraag bij ChatGPT leverde als conclusie dat een van de geheugenmodules defect zou zijn. Vanmiddag heb ik daarom de modules omgewisseld, maar daarmee wilde het systeem helemaal niet booten. Bij nader inzien had ik dit probleem tijdens mijn eerste test ook, maar vond toen in moederbord dat ik slots 2 en 4 (geteld vanaf CPU) moet gebruiken voor beste compatibiliteit, het systeem werkte daarna dus ik had er geen aandacht meer aan besteed. De 2e module heb ik daarom dus maar even helemaal er uitgehaald, want die leek sowieso niet foutloos. Helaas loste dat het probleem dus nog niet op.

Kijkend naar de foutmeldingen zitten er veel overeenkomsten in. Van wat ik kan zien van de 'CPU:0...' regels zie ik de volgende unieke varianten (op basis van journalctl | grep 'CPU:0' | cut -d ' ' -f 1,2,3 --complement | sort -u):

code:

morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b
morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b
morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC18_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b
morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC18_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b

De EDAC regel heeft veel meer variatie. In bijna alle gevallen is het csrow:3 channel:1, maar 1 keer was het csrow:2 channel:0 en 1 keer csrow:3 channel:0. Deze laatste had ook een sterk afwijkend syndrome; 0x3f89 , dat in de meeste gevallen 0x20, 0x80, 0x2000 of 0x8000 is. Ik zie wel wat andere waarden in mindere mate voorkomen (0x2, 0xa0). Page en offset lijken volledig willekeurig, laagste page is 0x6010e, hoogste 0x431b34, maar alles daartussen lijkt zo'n beetje wel een keer voor te komen, in 588 registraties sinds 8 juni.

Ik heb vroeger weleens defect geheugen gehad, memtest kwam dat dan wel tegen. Helaas heb ik geen flauw idee waar ik nu naar zit te zoeken. Tijdens het tikken van dit verhaal startte het systeem nogmaals opnieuw op, daarna heb ik de geheugenmodule van slot 4 naar slot 2 verplaatst (beiden geteld vanaf CPU), tot nu toe heeft dat geen nieuwe foutmeldingen opgeleverd. Neemt niet weg dat toen ik eerder vandaag naar 1 module toe ging het ook even leek te duren voordat de problemen zich opnieuw voordeden.

Wie o wie heeft enig idee wat er hier mis gaat?

Groeten,
Michael

Beste antwoord (via mycroes op 15-07-2025 15:47)

dinsdag 24 juni 2025 23:53

mrmrmr

𓅓 𓂋 𓅓 𓂋 𓅓 𓂋

ASRock
Moederborden

Jouw geheugen is DDR4-3200 volgens specs online. Dat is een JEDEC standaard en die zou het moeten doen als de geheugencontroller (cpu/chipset) deze snelheid ondersteunt. Het zou op 1,2V moeten draaien.

IOMMU is voor virtualisatie, het zou zonder moeten werken. Dat is wat je primair zou testen bij problemen. Bij troubleshooting altijd van simpel naar complex werken, waarbij simpel eerst moet werken voor je verder gaat.

Als er hardwareproblemen zijn is dat soms moeilijk vast te stellen. Iemand die handig is met een multimeter zou kunnen meten of niet ergens een kortsluiting is. Als je toevallig een ir camera hebt kun je die ook gebruiken om te zien of er iets onverwacht heet wordt.

Alle reacties

dinsdag 24 juni 2025 06:23

Acties:

boyette

Er staat helemaal geen enkel hynix ram in de qvl van dit mobo

Neem geheugen die vermeld staat in de qvl om te beginnen

En ga daarmee verder

Ik zou ook niet weten waarom je deze combi maakt anders dan het goedkoopste met het goedkoopste te combineren zonder rekening te houden met compatibiliteit ..

Nou dan krijg je dus dit

[ Voor 39% gewijzigd door boyette op 24-06-2025 06:24 ]

dinsdag 24 juni 2025 07:27

Acties:

mrmrmr

𓅓 𓂋 𓅓 𓂋 𓅓 𓂋

ASRock
Moederborden

De onderdelen zijn niet voldoende duidelijk. Maak eens een volledig pricewatch lijstje zodat we kunnen zien wat je precies hebt.

Welk geheugenprofiel wordt gebruikt? Is het SPD (standaard JEDEC)/EXPO/XMP?

Je kan elk van de DIMMs apart proberen. De positie (A/B-1/2) is soms niet duidelijk.

Heb je de onderdelen tweedehands gekocht?

In China zijn shops die zich specialiseren in verkoop van dumpmateriaal. Daar is vaak iets mee aan de hand. Als je daar wat koopt zijn de verwachtingen niet erg hoog. Er komt ook veel vals materiaal voor, bijvoorbeeld valse grafische kaart of processor. Er wordt gerommeld met firmware.

dinsdag 24 juni 2025 20:09

Acties:

mycroes

Topicstarter

boyette schreef op dinsdag 24 juni 2025 @ 06:23:
Er staat helemaal geen enkel hynix ram in de qvl van dit mobo

Neem geheugen die vermeld staat in de qvl om te beginnen

Allereerst, ik snap niet waarom een QVL nodig is voor onderdelen die moeten voldoen aan een specificatie. Wat mij betreft hoort een moederbord dat DDR4 geheugen ondersteund niet beperkt te zijn tot een lijstje dat door de fabrikant wordt uitgegeven. Daarnaast is nieuw geheugen geen garantie voor perfect werkend geheugen, dus als mijn problemen dan alsnog optreden ben ik geen haar verder dan nu.

Maar laten we er vanuit gaan dat dit een goed idee is, dan zie ik in de QVL 2 modules staan waar ECC bij staat vermeld. Beiden lijken nergens meer nieuw leverbaar, dus dat is dan een volgend probleem.

Wat misschien wel het vermelden waard is, is dat het ECC geheugen op de QVL 2666MHz is, mijn geheugen werd verkocht als 3200MHz, maar misschien (ook in relatie tot de andere reactie) zou ik beter eens proberen het op een stuk lagere snelheid te draaien.

Ik zou ook niet weten waarom je deze combi maakt anders dan het goedkoopste met het goedkoopste te combineren zonder rekening te houden met compatibiliteit ..

De reden voor deze combi ligt net iets anders. Ik wilde een CPU die ECC geheugen ondersteund, zonder de TDP van een server CPU. Daardoor kwam ik uit bij de 4650G/4655G. Die zijn hier eigenlijk niet te vinden, zijn in de basis volgens mij ook alleen bedoeld voor OEMs. Daarnaast wilde ik 2 M.2 SSD's kwijt kunnen, 10 HDD's (i.c.m. een SAS HBA bij voorkeur) en een 2.5Gb ethernet poort. Dit moederbord heeft 6 Sata poorten, waardoor ik i.c.m. een SAS HBA met 2x SFF totaal 12 of 14 schijven aan kan sluiten (afhankelijk van gebruik 2e M.2 slot, kwam ik ook pas achteraf achter), wat dus nog mogelijkheid geeft voor uitbreiding (kast heeft ook nog ruimte over voor 2x 2.5" HDD/SSD). Daarnaast heeft het moederbord 2x M.2 (helaas 1 slot maar x2 bandbreedte, dus op dit moment zit 2e SSD in PCIe -> M.2 adapter), 2x PCIe x16 slots (waarvan 1 x8 bandbreedte uit m'n hoofd gezegd), 2x PCIe x1 (1x normaal slot, 1x E-key M.2 slot) en de 2.5Gb ethernet poort. Al met al dus alles wat ik nodig heb / dacht te hebben en voor een acceptabele prijs. Echter, absoluut niet de laagste prijs waarvoor je een AM4 moederbord kan kopen.

Omdat mobo + CPU van AliExpress kwamen leek het me wel zo makkelijk om daar ook geheugen te zoeken. Al deze onderdelen zijn natuurlijk een grote gok, maar ik heb nog altijd de hoop dat er 1 onderdeel is wat niet naar behoren werkt en dat de rest wel bruikbaar is. Zo niet, dan was dit een dure les.

Nou dan krijg je dus dit

Ik weet niet zo goed wat je hier mee wilt zeggen? Ik help graag mensen, ook als ze in mijn ogen domme fouten maken. Juist fijn als je iemand dan toch weer op weg kan helpen.

dinsdag 24 juni 2025 20:57

Acties:

mycroes

Topicstarter

mrmrmr schreef op dinsdag 24 juni 2025 @ 07:27:
De onderdelen zijn niet voldoende duidelijk. Maak eens een volledig pricewatch lijstje zodat we kunnen zien wat je precies hebt.

Ik ging het lijstje maken, maar pricewatch komt niet verder dan de genoemde Ryzen 5 Pro 4655G en de Asrock B550M Steel Legend. Andere onderdelen:

SK Hynix HMA82GU7DJR8N-XN - 16GB 3200MHz ECC geheugen (2x)
Huadisk 512GB NVMe M.2 SSD (2x)
DeepCool GPUD551 ARGB CPU cooler
Super Micro Computer Inc SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (volgens lspci -nnk, overduidelijk gebruikte SAS HBA)
Toshiba MD04ACA400 (5x)
Seagate ST4000DM000-2AE166

Welk geheugenprofiel wordt gebruikt? Is het SPD (standaard JEDEC)/EXPO/XMP?

Ik ben hier niet heel erg bekend mee. Ik wist dat XMP soms voor problemen kon zorgen, maar de BIOS informatie was voor mij nogal nietszeggend. Ik kan hier wel nog induiken om te kijken wat ik kan vinden.

Je kan elk van de DIMMs apart proberen. De positie (A/B-1/2) is soms niet duidelijk.

Dit was ik aan het proberen. Gisteren had ik de module die niet in z'n eentje in slot 4 wilde werken uit het systeem gehaald, helaas leverde dat nog net zo hard ECC fouten op. Vanavond heb ik die module (zonder de andere module) geprobeerd in slot 3; geen succes, en daarna in slot 2, waar hij oorspronkelijk ook in zat, nu met succes. Tot nu toe is er nog geen enkele ECC foutmelding geregistreerd, maar buiten Proxmox starten (zonder VMs) en bovenstaande informatie vergaren heb ik er ook nog niets mee gedaan.

Eerder vandaag leverde de enkele module (dus nog die die wel in z'n eentje werkt in slot 4) wel interessante foutmeldingen op:

code:

Jun 24 06:15:34 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x13a353 offset:0x640 grain:64 syndrome:0x80)
Jun 24 06:21:02 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 06:37:25 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 06:48:20 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x41298b offset:0xbc0 grain:64 syndrome:0x80)
Jun 24 06:59:16 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x13a353 offset:0x640 grain:64 syndrome:0x80)
Jun 24 07:10:11 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 07:26:34 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 08:04:48 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 08:26:39 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 08:32:06 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 08:43:02 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 08:59:25 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 09:26:43 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x13a353 offset:0x640 grain:64 syndrome:0x80)
Jun 24 09:43:06 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x25ae0e offset:0x7e0 grain:64 syndrome:0x80)
Jun 24 09:54:02 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 09:59:29 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x13a353 offset:0x640 grain:64 syndrome:0x80)
Jun 24 10:10:25 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 10:21:20 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 10:32:15 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x13a353 offset:0x640 grain:64 syndrome:0x80)
Jun 24 10:54:06 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 11:05:01 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x11e341 offset:0xc80 grain:64 syndrome:0x80)
Jun 24 11:10:29 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 11:21:24 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 11:32:20 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 12:05:06 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 12:10:34 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 12:37:52 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x13a353 offset:0x640 grain:64 syndrome:0x80)
Jun 24 12:54:15 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 12:59:43 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 13:10:38 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1679dd offset:0xc00 grain:64 syndrome:0x80)
Jun 24 13:27:01 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 13:48:52 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 14:05:15 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x161d26 offset:0x1c0 grain:64 syndrome:0x80)
Jun 24 14:10:43 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 14:38:01 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 14:48:56 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x257cd9 offset:0x260 grain:64 syndrome:0x80)
Jun 24 15:16:15 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 15:32:38 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 16:16:19 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x152b8f offset:0x400 grain:64 syndrome:0x80)
Jun 24 16:49:05 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)
Jun 24 17:21:51 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#0 (csrow:3 channel:0 page:0x1143f6 offset:0x680 grain:64 syndrome:0x80)

Om 06:10 was het systeem weer uit zichzelf gereboot (om ~06:10 dus klaar met booten), maar deze keer lijken de foutmeldingen ineens consistent te zijn. Een reboot later (ook uit zichzelf) zit er echter weer veel meer variatie in.

Heb je de onderdelen tweedehands gekocht?

Dit ligt aan je interpretatie denk ik. Ik heb het zelf besteld op AliExpress (m.u.v de schijven, die komen van een tweaker). Ik denk dat CPU gebruikt was, weet ik niet zeker. Moederbord zat niet in originele doos, ik ga er vanuit dat deze niet nieuw was (ging ik voor aanschaf ook niet vanuit). Geheugen ziet er wel nieuw uit, net zo als SSD's (gelabeled met 3 jaar garantie sticker) en de kabels die ik had besteld. De SAS HBA was overduidelijk gebruikt, maar voor 26 euro verwachtte ik ook niet dat die nieuw zou zijn.

In China zijn shops die zich specialiseren in verkoop van dumpmateriaal. Daar is vaak iets mee aan de hand. Als je daar wat koopt zijn de verwachtingen niet erg hoog. Er komt ook veel vals materiaal voor, bijvoorbeeld valse grafische kaart of processor. Er wordt gerommeld met firmware.

Ben ik bekend mee. Ik weet dat er ook moederborden worden verkocht die als defect retour zijn gekomen van consumenten. Dat kan betekenen dat ze gerepareerd zijn en weer worden verkocht of dat ze net zo hard defect weer worden verkocht. Voor zowel moederbord en CPU heb ik daarom gekozen voor advertenties waar een serieus aantal reviews op was en de reviews bekeken (ook bij moederbord 1 of 2 reviews die DOA claimden).

Nog aanvullend op mijn post; de Hardware Error regels zijn altijd op CPU:0. Ik maakte me daar enigszins zorgen over omdat ik zou verwachten dat bij geheugendefecten niet altijd core 0 de sjaak is (en ik ga er vanuit dat dit het core nummer is; niet CPU nummer, want dan zijn er ook geen opties ook). Ik heb echter wel vergelijkbare statistieken gezien online (er zijn kennelijk meer mensen die last hebben van de Corrected Error op R5 CPU's).

Tot slot; ik heb nog 2 opties die ik niet geprobeerd heb. Mijn oude server is een HP MicroServer Gen10. Volgens mij gebruikt deze ook unbuffered ECC geheugen, dus ik zou de modules daar eens in kunnen gooien. Nadeel is dat die in gebruik is, dus ik moet dat gaan plannen om vrouw en kinders tevreden te houden. De andere optie is om niet-ECC geheugen in m'n nieuwe server te stoppen, puur om mee te testen. 1 ding is dan zeker, ik zal geen ECC foutmeldingen meer krijgen. Helaas heb ik op dit moment geen betrouwbare manier om de reboots te triggeren, dus de tijd zal dan moeten bewijzen dat het probleemloos werkt (net als nu met die ene module).

In ieder geval bedankt voor je reactie. Ik zal proberen het geheugenprofiel te achterhalen, maar voor nu wacht ik eerst even af wat er gebeurd met deze module (intussen al weer bijna 2 uur uptime, zonder fouten).

[ Voor 0% gewijzigd door mycroes op 24-06-2025 21:11 . Reden: Toevoeging HDD oorsprong ]

dinsdag 24 juni 2025 23:29

Acties:

mycroes

Topicstarter

Korte update: kennelijk werkt de module die er nu in z'n eentje in zit ook in slot 4 waar hij eerder niet werkte. Toen ik de module eerder vanavond in slot 2 had gestoken ging het systeem in eerste instantie ook niet aan, maar via de CMOS reset knop op het IO panel had ik toen geprobeerd een reset te doen. Omdat het systeem weer aanging toen ik de voeding aanzette (Restore AC power loss: enabled) ging ik er voor het gemak van uit dat dit niet het geval was. Ik kwam er net echter achter dat IOMMU uit stond, waardoor ik getriggered werd om de module nog maar eens in slot 4 te proberen. Dat betekent ook dat de 3 uur foutloze uptime net zonder IOMMU was, maar intussen is het eerste kwartier met IOMMU aan ook weer foutloos.

mrmrmr schreef op dinsdag 24 juni 2025 @ 07:27:
Welk geheugenprofiel wordt gebruikt? Is het SPD (standaard JEDEC)/EXPO/XMP?

Volgens mij is het standaard JEDEC. Bij DRAM Information zie ik JEDEC met 3 configuraties (3200, 2933, 2666 + Volt, tCL, tRCD, tRP, tRAS, tRC, tRFC1/2/4, tRRD_L/S, tFAW, tCCD_L per regel), daaronder staat XMP met 2 lege regels. Elders vond ik SPD Read Optimization, die staat op Enabled.

Ik ben volgens mij verder ook nergens instellingen m.b.t. XMP/EXPO tegengekomen.

dinsdag 24 juni 2025 23:53

Acties:

Beste antwoord ✓

mrmrmr

𓅓 𓂋 𓅓 𓂋 𓅓 𓂋

ASRock
Moederborden

woensdag 25 juni 2025 06:59

Acties:

mycroes

Topicstarter

mrmrmr schreef op dinsdag 24 juni 2025 @ 23:53:
Jouw geheugen is DDR4-3200 volgens specs online. Dat is een JEDEC standaard en die zou het moeten doen als de geheugencontroller (cpu/chipset) deze snelheid ondersteunt. Het zou op 1,2V moeten draaien.

BIOS gaf aan dat geheugen op 1,21V draait, dat lijkt me prima binnen de marges. BIOS laat ook gewoon DDR4-3200 zien, dus tot zo ver gaat het denk ik goed.

IOMMU is voor virtualisatie, het zou zonder moeten werken. Dat is wat je primair zou testen bij problemen. Bij troubleshooting altijd van simpel naar complex werken, waarbij simpel eerst moet werken voor je verder gaat.

IOMMU heb ik nodig voor forwarden van m'n SAS HBA naar m'n storage VM. Daarnaast was ik nog aan het experimenteren met het forwarden van de GPU naar een Windows VM (nog zonder succes). Is wel een optie om het tijdelijk uit te zetten, anderzijds verwacht ik hier eigenlijk ook geen impact van en al helemaal niet wanneer er geen VMs draaien.

Als er hardwareproblemen zijn is dat soms moeilijk vast te stellen. Iemand die handig is met een multimeter zou kunnen meten of niet ergens een kortsluiting is. Als je toevallig een ir camera hebt kun je die ook gebruiken om te zien of er iets onverwacht heet wordt.

Ik heb een multimeter, maar ik heb niet de illusie dat ik daarmee een kortsluiting ga vinden op een (modern) moederbord. Een IR camera heb ik helaas niet.

Sinds gisteravond zijn er nog altijd geen ECC fouten geweest. Helaas zijn de sporadische reboots nog geen verleden tijd

Zowel om 05:58 als om 06:31 is het systeem spontaan gereboot. Ik denk dat ik misschien toch ga beginnen met het geheugen wisselen naar een setje niet-ECC DDR4 om te kijken of dat enig verschil maakt, maar lijkt er op dat er misschien meerdere problemen tegelijkertijd spelen.

woensdag 25 juni 2025 07:36

Acties:

sOid

Voor wat het waard is, ik heb een vergelijkbare setup. Ook met Proxmox. Draait prima.

- Asrock B550M Steel Legend mobo
- Ryzen 5 Pro 4650G
- 2x SK Hynix 16GB DDR4 2666 ECC UDIMM RAM 2Rx8 PC4-21300 HMA82GU7CJR8N-VK 288pin

Ik had dit geheugen eerder gekocht voor een Gigabyte mobo, waar dit op de QVL stond. Dat mobo werkte echter niet goed, dus de steel legend gekocht. Daar stond deze niet op de QVL maar draait dus intussen een paar weken zonder problemen.

woensdag 25 juni 2025 23:01

Acties:

mycroes

Topicstarter

Bedankt voor de feedback @sOid. Sinds 06:31 draait het systeem nu zonder issues. Dat is best een beetje frustrerend, want ik vertrouw het systeem nu toch nog niet. In een poging om de reboots te triggeren heb ik nu stress draaien met ca. 90% CPU load. Ik heb ook m'n OpenMediaVault VM gestart en daar stress --hdd 4 gestart, maar het lijkt allemaal niets uit te halen. CPU temperatuur zit nu wel op 80 graden (uitschieters naar 83.1 graden), maar lijkt me nog OK. Helaas levert dit ook nog niets op, systeem draait nu 'stabiel'. Ben erg benieuwd of hij nu de nacht wel door gaat komen, zo niet dan ga ik testen met minder/andere hardware.

vrijdag 27 juni 2025 21:00

Acties:

jimh307

Wat kan helpen is een CPU reseat https://www.google.com/se...&sourceid=chrome&ie=UTF-8.

Daar denk ik dan aan. Ooit ook dergelijke problemen gehad die niet te verklaren waren en een reseat loste alles op. Direct.

Een andere mogelijkheid is dat jouw CPU defect kan zijn.

maandag 30 juni 2025 08:43

Acties:

mycroes

Topicstarter

Bedankt voor de tip @jimh307.

Vorige week was ik nog wat aan het rommelen en toen wilde proxmox niet meer starten. Kon de ZFS volumes nog wel mounten vanuit Ubuntu live, maar was niet duidelijk wat er mis was. Toen de keuze gemaakt om zo veel mogelijk hardware los te halen om al die componenten uit te sluiten, dus 1 SSD er uit, SAS HBA er uit, Sata schijven los en geheugen vervangen door 2x 8GB DDR4 2400MHz niet-ECC die ik nog nieuw in de doos had liggen. Daarna Proxmox opnieuw geinstalleerd met 1 SSD + LVM, dat draait intussen ruim 3 dagen zonder reboots (dat is een record). Al die tijd ook stress laten draaien met 10 threads CPU hog zodat het systeem in ieder geval iets te doen had.

Vanavond ga ik weer wisselen, eerst testen met de 'werkende' module ECC geheugen. Als dat goed gaat ga ik 1 voor 1 componenten toevoegen.

woensdag 9 juli 2025 09:21

Acties:

mycroes

Topicstarter

Intussen een week verder en heel wat wijzer. Met de 'werkende' ECC module had ik nog altijd last van sporadische reboots, geen ECC errors. Snelheid van geheugen toen teruggezet naar 2933MHz en op V&A gereageerd op DDR4-3200MHz niet-ECC geheugen om te testen of moederbord/CPU niet het probleem zijn. Op 2933MHz draaide het systeem een aantal dagen prima. 2e module toegevoegd (die dus eerst ECC errors gaf), ook die werkt op 2933MHz zonder verdere problemen.

Mijn aanname is voor nu dat het probleem bij het geheugen ligt. Echter kan ik er voor nu prima mee leven dat het geheugen op 2933MHz draait, tegen de tijd dat ik daar niet tevreden meer mee ben is het misschien tijd om weer wat anders aan te schaffen. De komende dagen ga ik nog wat intensiever testen en dan alle overige componenten weer aansluiten, wordt vervolgd... Voor nu in ieder geval bedankt voor alle tips en reacties!

vrijdag 11 juli 2025 07:28

Acties:

Damic

Tijd voor Jasmijn thee

Volgens mij is je geheugen van de afval berg gekomen.

Al wat ik aanraak werk niet meer zoals het hoort. Damic houd niet van zijn verjaardag

vrijdag 11 juli 2025 08:07

Acties:

boyette

mycroes schreef op woensdag 9 juli 2025 @ 09:21:
Intussen een week verder en heel wat wijzer. Met de 'werkende' ECC module had ik nog altijd last van sporadische reboots, geen ECC errors. Snelheid van geheugen toen teruggezet naar 2933MHz en op V&A gereageerd op DDR4-3200MHz niet-ECC geheugen om te testen of moederbord/CPU niet het probleem zijn. Op 2933MHz draaide het systeem een aantal dagen prima. 2e module toegevoegd (die dus eerst ECC errors gaf), ook die werkt op 2933MHz zonder verdere problemen.

Mijn aanname is voor nu dat het probleem bij het geheugen ligt. Echter kan ik er voor nu prima mee leven dat het geheugen op 2933MHz draait, tegen de tijd dat ik daar niet tevreden meer mee ben is het misschien tijd om weer wat anders aan te schaffen. De komende dagen ga ik nog wat intensiever testen en dan alle overige componenten weer aansluiten, wordt vervolgd... Voor nu in ieder geval bedankt voor alle tips en reacties!

ja dat zei ik je al in de eerste reactie.. dus had je geen week over hoeven te doen

maandag 14 juli 2025 23:16

Acties:

mycroes

Topicstarter

Damic schreef op vrijdag 11 juli 2025 @ 07:28:
Volgens mij is je geheugen van de afval berg gekomen.

Van AliExpress, maar daar zitten soms wel wat overeenkomsten in...

maandag 14 juli 2025 23:34

Acties:

mycroes

Topicstarter

boyette schreef op vrijdag 11 juli 2025 @ 08:07:
[...]

ja dat zei ik je al in de eerste reactie..

Ik vraag me af wat je bedoelt dat je in je eerste reactie al gezegd hebt? Ik gebruik namelijk nog altijd geen geheugen van de QVL en ook het niet-ECC geheugen stond niet op de QVL. ECC-geheugen van de QVL is simpelweg ook gewoon niet leverbaar omdat de QVL gedateerd is, maar als het wel leverbaar was ging ik er ook geen 150-170 euro voor betalen voor dit systeem. Persoonlijk vraag ik me vooral af of het geheugen gewoon op hogere snelheid verkocht wordt dan waar het voor geschikt is. Zoals @mrmrmr schreef kan het best zijn dat er mee gerommeld wordt (al lijkt me dat het bij geheugen geen firmware is die vervangbaar is). Al met al kocht ik het geheugen niet omdat het 3200MHz was, dat was toevallig gewoon zo. Voor 2933MHz is het nog steeds goedkoop in verhouding tot lokale prijzen, dus als het zo werkt ben ik prima tevreden.

dus had je geen week over hoeven te doen

Die week was een week waarin het oorspronkelijke geheugen waar ik mijn topic mee begon weer naar behoren werkte, sluit niet helemaal aan op je opmerking geloof ik. Daarnaast zijn we intussen 3 weken verder, maar ik heb ook andere dingen te doen zoals werken, overwerken, zorgen voor een zwangere vrouw en 7 kinderen, rommelen met centrale deurvergendeling van de auto, Sonoff devices converten van Tasmota naar ESPHome, Home Assistant updaten, MORR video's kijken, BOM video's kijken, ChatGPT uitspelen en soms nog even slapen. Volgens mij voor het meerendeel precies wat een Tweaker typeert. Ik weet niet of jij graag alles koopt waarbij je een ander laat uitzoeken dat het werkt (QVL), maar misschien is Tweakers dan niet de juiste plaats om je frustraties te uiten.

dinsdag 15 juli 2025 06:19

Acties:

jeroen3

mycroes schreef op maandag 23 juni 2025 @ 22:22:
allemaal aangeschaft via AliExpress.

Je weet zeker dat je geen factory rejects hebt gekocht?

dinsdag 15 juli 2025 15:46

Acties:

mycroes

Topicstarter

jeroen3 schreef op dinsdag 15 juli 2025 @ 06:19:
[...]

Je weet zeker dat je geen factory rejects hebt gekocht?

Nee. Stond er niet bij, maar durf ik zeker niet uit te sluiten. Volgens mij is dit ook in lijn met de eerste opmerking van @mrmrmr, AliExpress valt daar niet echt op te vertrouwen denk ik.

dinsdag 15 juli 2025 18:22

Acties:

boyette

mycroes schreef op maandag 14 juli 2025 @ 23:34:
[...]

Ik vraag me af wat je bedoelt dat je in je eerste reactie al gezegd hebt? Ik gebruik namelijk nog altijd geen geheugen van de QVL en ook het niet-ECC geheugen stond niet op de QVL. ECC-geheugen van de QVL is simpelweg ook gewoon niet leverbaar omdat de QVL gedateerd is, maar als het wel leverbaar was ging ik er ook geen 150-170 euro voor betalen voor dit systeem. Persoonlijk vraag ik me vooral af of het geheugen gewoon op hogere snelheid verkocht wordt dan waar het voor geschikt is. Zoals @mrmrmr schreef kan het best zijn dat er mee gerommeld wordt (al lijkt me dat het bij geheugen geen firmware is die vervangbaar is). Al met al kocht ik het geheugen niet omdat het 3200MHz was, dat was toevallig gewoon zo. Voor 2933MHz is het nog steeds goedkoop in verhouding tot lokale prijzen, dus als het zo werkt ben ik prima tevreden.

[...]

Die week was een week waarin het oorspronkelijke geheugen waar ik mijn topic mee begon weer naar behoren werkte, sluit niet helemaal aan op je opmerking geloof ik. Daarnaast zijn we intussen 3 weken verder, maar ik heb ook andere dingen te doen zoals werken, overwerken, zorgen voor een zwangere vrouw en 7 kinderen, rommelen met centrale deurvergendeling van de auto, Sonoff devices converten van Tasmota naar ESPHome, Home Assistant updaten, MORR video's kijken, BOM video's kijken, ChatGPT uitspelen en soms nog even slapen. Volgens mij voor het meerendeel precies wat een Tweaker typeert. Ik weet niet of jij graag alles koopt waarbij je een ander laat uitzoeken dat het werkt (QVL), maar misschien is Tweakers dan niet de juiste plaats om je frustraties te uiten.

wat ik bedoel is dat je geheugen niet goed is

schaf fatsoenlijk geheugen aan en je probleem is opgelost.

Pagina: 1

Reageer