Beste tweakers,
Sinds enkele weken heb ik een Asrock B550M Steel Legend, Ryzen 5 Pro 4655G en 2x16GB SK Hynix ECC geheugen, allemaal aangeschaft via AliExpress. In de basis werkt het systeem, maar er is instabiliteit die ik niet kan verklaren.
Het systeem draait Proxmox VE, er zitten 2 M.2 SSD's in om van te booten, een SAS HBA met 4 HDD's en 2 HDD's op 2 van de onboard Sata aansluitingen. Ik had al een ander Proxmox systeem, de eerste keer dat ik bewust tegen problemen aanliep was bij het overzetten van VM's via Proxmox Backup Server naar dit systeem. De eerste 3 of 4 VM's gingen zonder problemen; maar tijdens het restoren van m'n HAOS backup was ineens de verbinding weg en bleek het systeem opnieuw te zijn opgestart. Ik had hiervoor al een keer Memtest86 (van Passmark) gedraaid, die liep z'n 4 test runs volledig af zonder fouten. Daarna had ik wel nog een BIOS update gedaan, dus nog maar een keer memtest86 laten draaien, opnieuw zonder problemen.
Ergens rond deze tijd viel me een foutmelding op (op de console, melding hier van later tijdstip):
Online kon ik meer meldingen van i.c.m. R5 CPU's, waar o.a. verwezen wordt naar de geheugensnelheden. Ik heb de snelheid toen teruggezet van 3200MHz (automatisch) naar 3133. Het restoren van VMs bleek een goede trigger voor de reboots, maar met geheugen op 3133MHz leek dat opgelost.
Helaas bleef het probleem toch bestaan, maar misschien komt het wat minder vaak voor. Ik wist zelf niet zo goed wat ik van de foutmeldingen moest maken, al wist ik dat EDAC ECC gerelateerd is. Wat navraag bij ChatGPT leverde als conclusie dat een van de geheugenmodules defect zou zijn. Vanmiddag heb ik daarom de modules omgewisseld, maar daarmee wilde het systeem helemaal niet booten. Bij nader inzien had ik dit probleem tijdens mijn eerste test ook, maar vond toen in moederbord dat ik slots 2 en 4 (geteld vanaf CPU) moet gebruiken voor beste compatibiliteit, het systeem werkte daarna dus ik had er geen aandacht meer aan besteed. De 2e module heb ik daarom dus maar even helemaal er uitgehaald, want die leek sowieso niet foutloos. Helaas loste dat het probleem dus nog niet op.
Kijkend naar de foutmeldingen zitten er veel overeenkomsten in. Van wat ik kan zien van de 'CPU:0...' regels zie ik de volgende unieke varianten (op basis van journalctl | grep 'CPU:0' | cut -d ' ' -f 1,2,3 --complement | sort -u):
De EDAC regel heeft veel meer variatie. In bijna alle gevallen is het csrow:3 channel:1, maar 1 keer was het csrow:2 channel:0 en 1 keer csrow:3 channel:0. Deze laatste had ook een sterk afwijkend syndrome; 0x3f89 , dat in de meeste gevallen 0x20, 0x80, 0x2000 of 0x8000 is. Ik zie wel wat andere waarden in mindere mate voorkomen (0x2, 0xa0). Page en offset lijken volledig willekeurig, laagste page is 0x6010e, hoogste 0x431b34, maar alles daartussen lijkt zo'n beetje wel een keer voor te komen, in 588 registraties sinds 8 juni.
Ik heb vroeger weleens defect geheugen gehad, memtest kwam dat dan wel tegen. Helaas heb ik geen flauw idee waar ik nu naar zit te zoeken. Tijdens het tikken van dit verhaal startte het systeem nogmaals opnieuw op, daarna heb ik de geheugenmodule van slot 4 naar slot 2 verplaatst (beiden geteld vanaf CPU), tot nu toe heeft dat geen nieuwe foutmeldingen opgeleverd. Neemt niet weg dat toen ik eerder vandaag naar 1 module toe ging het ook even leek te duren voordat de problemen zich opnieuw voordeden.
Wie o wie heeft enig idee wat er hier mis gaat?
Groeten,
Michael
Sinds enkele weken heb ik een Asrock B550M Steel Legend, Ryzen 5 Pro 4655G en 2x16GB SK Hynix ECC geheugen, allemaal aangeschaft via AliExpress. In de basis werkt het systeem, maar er is instabiliteit die ik niet kan verklaren.
Het systeem draait Proxmox VE, er zitten 2 M.2 SSD's in om van te booten, een SAS HBA met 4 HDD's en 2 HDD's op 2 van de onboard Sata aansluitingen. Ik had al een ander Proxmox systeem, de eerste keer dat ik bewust tegen problemen aanliep was bij het overzetten van VM's via Proxmox Backup Server naar dit systeem. De eerste 3 of 4 VM's gingen zonder problemen; maar tijdens het restoren van m'n HAOS backup was ineens de verbinding weg en bleek het systeem opnieuw te zijn opgestart. Ik had hiervoor al een keer Memtest86 (van Passmark) gedraaid, die liep z'n 4 test runs volledig af zonder fouten. Daarna had ik wel nog een BIOS update gedaan, dus nog maar een keer memtest86 laten draaien, opnieuw zonder problemen.
Ergens rond deze tijd viel me een foutmelding op (op de console, melding hier van later tijdstip):
code:
1
2
3
4
5
6
7
8
| Jun 23 21:26:15 morpheus kernel: mce: [Hardware Error]: Machine check events logged Jun 23 21:26:15 morpheus kernel: [Hardware Error]: Corrected error, no action required. Jun 23 21:26:15 morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC18_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-> Jun 23 21:26:15 morpheus kernel: [Hardware Error]: Error Addr: 0x00000000d886f140 Jun 23 21:26:15 morpheus kernel: [Hardware Error]: IPID: 0x0000009600150f00, Syndrome: 0x000080000a401203 Jun 23 21:26:15 morpheus kernel: [Hardware Error]: Unified Memory Controller Ext. Error Code: 0 Jun 23 21:26:15 morpheus kernel: EDAC MC0: 1 CE on mc#0csrow#3channel#1 (csrow:3 channel:1 page:0x11886f offset:0x140 g> Jun 23 21:26:15 morpheus kernel: [Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: RD |
Online kon ik meer meldingen van i.c.m. R5 CPU's, waar o.a. verwezen wordt naar de geheugensnelheden. Ik heb de snelheid toen teruggezet van 3200MHz (automatisch) naar 3133. Het restoren van VMs bleek een goede trigger voor de reboots, maar met geheugen op 3133MHz leek dat opgelost.
Helaas bleef het probleem toch bestaan, maar misschien komt het wat minder vaak voor. Ik wist zelf niet zo goed wat ik van de foutmeldingen moest maken, al wist ik dat EDAC ECC gerelateerd is. Wat navraag bij ChatGPT leverde als conclusie dat een van de geheugenmodules defect zou zijn. Vanmiddag heb ik daarom de modules omgewisseld, maar daarmee wilde het systeem helemaal niet booten. Bij nader inzien had ik dit probleem tijdens mijn eerste test ook, maar vond toen in moederbord dat ik slots 2 en 4 (geteld vanaf CPU) moet gebruiken voor beste compatibiliteit, het systeem werkte daarna dus ik had er geen aandacht meer aan besteed. De 2e module heb ik daarom dus maar even helemaal er uitgehaald, want die leek sowieso niet foutloos. Helaas loste dat het probleem dus nog niet op.
Kijkend naar de foutmeldingen zitten er veel overeenkomsten in. Van wat ik kan zien van de 'CPU:0...' regels zie ik de volgende unieke varianten (op basis van journalctl | grep 'CPU:0' | cut -d ' ' -f 1,2,3 --complement | sort -u):
code:
1
2
3
4
| morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC17_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC17_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC18_STATUS[-|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0x9c2040000000011b morpheus kernel: [Hardware Error]: CPU:0 (17:60:1) MC18_STATUS[Over|CE|MiscV|AddrV|-|-|SyndV|CECC|-|-|-]: 0xdc2040000000011b |
De EDAC regel heeft veel meer variatie. In bijna alle gevallen is het csrow:3 channel:1, maar 1 keer was het csrow:2 channel:0 en 1 keer csrow:3 channel:0. Deze laatste had ook een sterk afwijkend syndrome; 0x3f89 , dat in de meeste gevallen 0x20, 0x80, 0x2000 of 0x8000 is. Ik zie wel wat andere waarden in mindere mate voorkomen (0x2, 0xa0). Page en offset lijken volledig willekeurig, laagste page is 0x6010e, hoogste 0x431b34, maar alles daartussen lijkt zo'n beetje wel een keer voor te komen, in 588 registraties sinds 8 juni.
Ik heb vroeger weleens defect geheugen gehad, memtest kwam dat dan wel tegen. Helaas heb ik geen flauw idee waar ik nu naar zit te zoeken. Tijdens het tikken van dit verhaal startte het systeem nogmaals opnieuw op, daarna heb ik de geheugenmodule van slot 4 naar slot 2 verplaatst (beiden geteld vanaf CPU), tot nu toe heeft dat geen nieuwe foutmeldingen opgeleverd. Neemt niet weg dat toen ik eerder vandaag naar 1 module toe ging het ook even leek te duren voordat de problemen zich opnieuw voordeden.
Wie o wie heeft enig idee wat er hier mis gaat?
Groeten,
Michael