MCE Hardware errors (maar systeem stabiel en memtest=ok)

woensdag 5 februari 2020 13:33

Acties:

Topicstarter

Ik heb een PC in elkaar gezet uit onderdelen.
Een Fujitsu D3644-B moederbord, Samsung ECC geheugen (wat op de goedgekeurde lijst staat van fabrikant), Intel 660p 1TB M2 en een Intel i3-9100. Het moederbord is voorzien van de laatste firmware 1.6.

Bij het bouwen heb ik een twee live-iso's gebruikt voor controle. Eerst Ubuntu, en daarna Manjaro.
Uiteindelijk heb ik de Ubuntu desktop-variant geinstalleerd om ook applicaties te kunnen installeren. Huidige kernel is 5.3.0.29.

Het systeem is stabiel, vertoont geen rare storingen/reboots. Echter bij het opstarten flitsen er meldingen voorbij die duiden op een hardware error. Ik heb de Manjaro-livecd gebruikt om te kijken of het opgelost zijn zijn met een nieuwere kernel. Echter ook in Manjaro met de huidige kernel (5.5.0.1) geeft dezelde meldingen.

Als ik de logs opvraag met dmesg verschijn dit:
gizmo@nasbak:~$ dmesg | grep -i error
[ 0.198466] mce: [Hardware Error]: Machine check events logged
[ 0.198467] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ee00000000801136
[ 0.198468] mce: [Hardware Error]: TSC 0 ADDR 8b445140 MISC 4b040000086
[ 0.198470] mce: [Hardware Error]: PROCESSOR 0:906eb TIME 1580890443 SOCKET 0 APIC 0 microcode ca
[ 0.198471] mce: [Hardware Error]: Machine check events logged
[ 0.198471] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ee00000000801136
[ 0.198472] mce: [Hardware Error]: TSC 0 ADDR 8b445100 MISC 47040000086
[ 0.198473] mce: [Hardware Error]: PROCESSOR 0:906eb TIME 1580890443 SOCKET 0 APIC 0 microcode ca
[ 0.484313] pcieport 0000:00:1b.4: DPC: error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 4, DL_ActiveErr+
[ 0.606541] RAS: Correctable Errors collector initialized.
[ 2.272364] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro

In eerste instantie dacht ik aan verkeerd geheugen, maar dat is inmiddels omgewisseld. Memtest86+ heb ik een volle test laten draaien en geeft na 12 uur draaien 0 errors.

Mijn vraag dan:
Er lijkt wat stuk als ik de meldingen lees, maar geheugen blijkt het niet te zijn. Het systeem is verder stabiel en draait zoals je dat zou verwachten. Kan iemand me verder helpen met troubleshooten? Is er een manier om uit te zoeken wat er op Bank 8: ee00000000801136 en Bank 9: ee00000000801136 draait?

Elke reactie of denkrichting is welkom.

vrijdag 7 februari 2020 11:11

Thralas

bolkmans schreef op donderdag 6 februari 2020 @ 09:40:
Mijn eerste 'facepalm'-moment in 2020. Waarom ben ik daar zelf niet op gekomen. Inderdaad. Ik weet nu welk geheugenreepje de storing geeft. Deze gaat retour leverancier.

Dankjewel!

Opgelost.

Nou..

De anekdote van @Cyberonline is aardig, maar ik betwijfel of dat hier aan de orde is. Hoewel een ECC error een MCE oplevert, is niet iedere MCE ook een ECC error.

Wat je namelijk éérst zou moeten doen is de MCE decoderen, dat kan met mcelog:

code:

Machine check events logged
Hardware event. This is not a software error.
CPU 0 BANK 8 
MISC 4b040000086 ADDR 8b445140 
TIME 1580890443 Wed Feb  5 09:14:03 2020
MCG status:
MCi status:
Error overflow
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Data CACHE Level-2 Data-Read Error
STATUS ee00000000801136 MCGSTATUS 0
CPUID Vendor Intel Family 6 Model 158 Step 11
SOCKET 0 APIC 0 microcode ca

Machine check events logged
Hardware event. This is not a software error.
CPU 0 BANK 9 
MISC 47040000086 ADDR 8b445100 
TIME 1580890443 Wed Feb  5 09:14:03 2020
MCG status:
MCi status:
Error overflow
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Data CACHE Level-2 Data-Read Error
STATUS ee00000000801136 MCGSTATUS 0
CPUID Vendor Intel Family 6 Model 158 Step 11
SOCKET 0 APIC 0 microcode ca

Key takeaway: Data CACHE Level-2 Data-Read Error

Volgens de hardware zelf is het dus een L2 cache error (dus, CPU) en heeft het niets met ECC te maken (dan zie je in de kernel log ook vermeldingen van EDAC).

Google je specifeke status, dan zie je dat er meer Fujitsu-borden lijken te zijn met dezelfde cache errors.

Kijk je er nóg beter naar, dan valt op dat het faulting address zelfs hetzelfde is, het overflow-bitje is gezet en hij hem meteen lijkt te rapporteren zodra de de mce driver is geïnitialiseeerd.

Wat is de faulting address dan? Gelukkig had je een volledige kernel log gepost.

code:

1	feb 05 18:14:04 nasbak kernel: BIOS-e820: [mem 0x0000000089f00000-0x000000008f7fffff] reserved

Reserved. Waarmee de error dus niet optreedt in de kernel, en expliciet in een range die je UEFI niet vrijgeeft.

Zou zomaar eens een firmware issue van Fujitsu kunnen zijn.

Zolang je geen MCEs krijgt als Linux draait is er sowieso weinig om je zorgen over te maken.

woensdag 5 februari 2020 14:39

Acties:

Cyberonline

Wat zegt de journalctl hierover?

Tevens zie ik niet welke Memory je precies hebt gebruikt (model/type en snelheid)

[ Voor 57% gewijzigd door Cyberonline op 05-02-2020 14:44 ]

woensdag 5 februari 2020 20:03

Acties:

bolkmans

Topicstarter

Cyberonline schreef op woensdag 5 februari 2020 @ 14:39:
Wat zegt de journalctl hierover?

Tevens zie ik niet welke Memory je precies hebt gebruikt (model/type en snelheid)

Bedankt voor je reactie!!

Het geheugen: 2x16GB ECC Samsung M391A2K43BB1-CTD. Zie gekoppelde hardware boven in deze post voor de link. Hier nog een keer: https://tweakers.net/pric...ung-m391a2k43bb1-ctd.html

Hier een link naar de output van journalctl:
https://privatebin.net/?6...83nNNkg2A9XnUoJYiGXD1i2Jw

Ik word van die journalctl niet veel wijzer en weet niet zo goed wat nu de volgende logische stap zou zijn.

Edit:
Misschien helpt het. Hier een link naar: https://linux-hardware.org/index.php?probe=889f615d63

[ Voor 7% gewijzigd door bolkmans op 05-02-2020 20:07 ]

donderdag 6 februari 2020 08:48

Acties:

Cyberonline

Ik heb soortgelijke melding wel eens eerder gehad, in mijn geval was het toen een falende ECC geheugenchip het probleem (ookal zeg memtest dat het OK is).
Dit omdat het volgens het geheugen prima is, omdat de juiste waarde word weggeschreven en geverifieerd, maar de ECC hardware heeft de bit moeten corrigeren, waardoor er een MCE error komt, wat niet gedetecteerd word door memtest.

Heb je meerdere RAM modules aangesloten? sluit er dan steeds 1 aan, en controleer dan of de error nog voorkomt.
Probeer desnoods even een andere RAM module, om dit uit te kunnen sluiten.

donderdag 6 februari 2020 09:40

Acties:

bolkmans

Topicstarter

Cyberonline schreef op donderdag 6 februari 2020 @ 08:48:
...
Probeer desnoods even een andere RAM module, om dit uit te kunnen sluiten.

Mijn eerste 'facepalm'-moment in 2020. Waarom ben ik daar zelf niet op gekomen. Inderdaad. Ik weet nu welk geheugenreepje de storing geeft. Deze gaat retour leverancier.

Dankjewel!

Opgelost.

donderdag 6 februari 2020 09:44

Acties:

Cyphax

Moderator LNX/AI

bolkmans schreef op donderdag 6 februari 2020 @ 09:40:
[...]

Mijn eerste 'facepalm'-moment in 2020. Waarom ben ik daar zelf niet op gekomen. Inderdaad. Ik weet nu welk geheugenreepje de storing geeft. Deze gaat retour leverancier.

Dankjewel!

Opgelost.

Wil je zijn reactie dan als Beste antwoord markeren?

Saved by the buoyancy of citrus

donderdag 6 februari 2020 09:46

Acties:

bolkmans

Topicstarter

Cyphax schreef op donderdag 6 februari 2020 @ 09:44:
[...]

Wil je zijn reactie dan als Beste antwoord markeren?

Dat heb ik al gedaan!
Edit: Euh, bij nader inzien toch niet. Nu wel.

[ Voor 10% gewijzigd door bolkmans op 06-02-2020 09:47 ]

vrijdag 7 februari 2020 11:11

Acties:

Beste antwoord ✓

Thralas

bolkmans schreef op donderdag 6 februari 2020 @ 09:40:
Mijn eerste 'facepalm'-moment in 2020. Waarom ben ik daar zelf niet op gekomen. Inderdaad. Ik weet nu welk geheugenreepje de storing geeft. Deze gaat retour leverancier.

Dankjewel!

Opgelost.

Nou..

De anekdote van @Cyberonline is aardig, maar ik betwijfel of dat hier aan de orde is. Hoewel een ECC error een MCE oplevert, is niet iedere MCE ook een ECC error.

Wat je namelijk éérst zou moeten doen is de MCE decoderen, dat kan met mcelog:

code:

Machine check events logged
Hardware event. This is not a software error.
CPU 0 BANK 8 
MISC 4b040000086 ADDR 8b445140 
TIME 1580890443 Wed Feb  5 09:14:03 2020
MCG status:
MCi status:
Error overflow
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Data CACHE Level-2 Data-Read Error
STATUS ee00000000801136 MCGSTATUS 0
CPUID Vendor Intel Family 6 Model 158 Step 11
SOCKET 0 APIC 0 microcode ca

Machine check events logged
Hardware event. This is not a software error.
CPU 0 BANK 9 
MISC 47040000086 ADDR 8b445100 
TIME 1580890443 Wed Feb  5 09:14:03 2020
MCG status:
MCi status:
Error overflow
Uncorrected error
MCi_MISC register valid
MCi_ADDR register valid
Processor context corrupt
MCA: corrected filtering (some unreported errors in same region)
Data CACHE Level-2 Data-Read Error
STATUS ee00000000801136 MCGSTATUS 0
CPUID Vendor Intel Family 6 Model 158 Step 11
SOCKET 0 APIC 0 microcode ca

Key takeaway: Data CACHE Level-2 Data-Read Error

Volgens de hardware zelf is het dus een L2 cache error (dus, CPU) en heeft het niets met ECC te maken (dan zie je in de kernel log ook vermeldingen van EDAC).

Google je specifeke status, dan zie je dat er meer Fujitsu-borden lijken te zijn met dezelfde cache errors.

Kijk je er nóg beter naar, dan valt op dat het faulting address zelfs hetzelfde is, het overflow-bitje is gezet en hij hem meteen lijkt te rapporteren zodra de de mce driver is geïnitialiseeerd.

Wat is de faulting address dan? Gelukkig had je een volledige kernel log gepost.

code:

1	feb 05 18:14:04 nasbak kernel: BIOS-e820: [mem 0x0000000089f00000-0x000000008f7fffff] reserved

Reserved. Waarmee de error dus niet optreedt in de kernel, en expliciet in een range die je UEFI niet vrijgeeft.

Zou zomaar eens een firmware issue van Fujitsu kunnen zijn.

Zolang je geen MCEs krijgt als Linux draait is er sowieso weinig om je zorgen over te maken.

vrijdag 7 februari 2020 11:55

Acties:

bolkmans

Topicstarter

Thralas schreef op vrijdag 7 februari 2020 @ 11:11:
[...]

Nou..

...

Wauw. Indrukwekkend. Je bent er serieus ingedoken. Heel erg bedankt.

Toevallig ook, want na mijn vorige post heb ik contact opgenomen met de leverancier van de geheugenmodules. Er is er vandaag een vervangende module geleverd. Ik wist niet meer zeker of de 'foute' module ingeprikt was of niet. Dus; PC aan en even kijken of de foutmelding verscheen. Dat deed hij. Dus wisselde ik de geheugenmodules om. De fout was echter niet weg na opnieuw starten. Na enkele opstartpogingen (tientallen) blijkt dat de melding -soms- niet verschijnt, maar meestal wel (1 op 20-30 gaat goed). Het maakt niet uit in welke bank ik het geheugen prik. Er breekt mentaal wat af als ik dergelijke meldingen voorbij zie flitsen. Ik wil dat snappen, en dankzij jouw uitleg heb ik nu een duidelijk beeld. De laatste firmware-versie van Fujitsu is van 14-06-2019. Dus echt haast met het oplossen van het probleem hebben ze niet daar. Ik weet niet of ik dit nieuwe moederbord zo wil gebruiken.

Nogmaals dank voor je uitvoerige uitleg!

zaterdag 27 juni 2020 22:05

Acties:

mrmrmr

𓅓 𓂋 𓅓 𓂋 𓅓 𓂋

Fujitsu
Fujitsu D3644-B
Moederborden

Voor mensen die hier komen zoeken:

Sinds eind februari is er een BIOS update 1.8.0 voor de mce foutmeldingen.

https://www.heise.de/foru...-0/posting-36196014/show/

Onderwerpen

Vraag

Beste antwoord (via bolkmans op 07-02-2020 11:55)

Alle reacties