Ik heb een PC in elkaar gezet uit onderdelen.
Een Fujitsu D3644-B moederbord, Samsung ECC geheugen (wat op de goedgekeurde lijst staat van fabrikant), Intel 660p 1TB M2 en een Intel i3-9100. Het moederbord is voorzien van de laatste firmware 1.6.
Bij het bouwen heb ik een twee live-iso's gebruikt voor controle. Eerst Ubuntu, en daarna Manjaro.
Uiteindelijk heb ik de Ubuntu desktop-variant geinstalleerd om ook applicaties te kunnen installeren. Huidige kernel is 5.3.0.29.
Het systeem is stabiel, vertoont geen rare storingen/reboots. Echter bij het opstarten flitsen er meldingen voorbij die duiden op een hardware error. Ik heb de Manjaro-livecd gebruikt om te kijken of het opgelost zijn zijn met een nieuwere kernel. Echter ook in Manjaro met de huidige kernel (5.5.0.1) geeft dezelde meldingen.
Als ik de logs opvraag met dmesg verschijn dit:
gizmo@nasbak:~$ dmesg | grep -i error
[ 0.198466] mce: [Hardware Error]: Machine check events logged
[ 0.198467] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ee00000000801136
[ 0.198468] mce: [Hardware Error]: TSC 0 ADDR 8b445140 MISC 4b040000086
[ 0.198470] mce: [Hardware Error]: PROCESSOR 0:906eb TIME 1580890443 SOCKET 0 APIC 0 microcode ca
[ 0.198471] mce: [Hardware Error]: Machine check events logged
[ 0.198471] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ee00000000801136
[ 0.198472] mce: [Hardware Error]: TSC 0 ADDR 8b445100 MISC 47040000086
[ 0.198473] mce: [Hardware Error]: PROCESSOR 0:906eb TIME 1580890443 SOCKET 0 APIC 0 microcode ca
[ 0.484313] pcieport 0000:00:1b.4: DPC: error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 4, DL_ActiveErr+
[ 0.606541] RAS: Correctable Errors collector initialized.
[ 2.272364] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro
In eerste instantie dacht ik aan verkeerd geheugen, maar dat is inmiddels omgewisseld. Memtest86+ heb ik een volle test laten draaien en geeft na 12 uur draaien 0 errors.
Mijn vraag dan:
Er lijkt wat stuk als ik de meldingen lees, maar geheugen blijkt het niet te zijn. Het systeem is verder stabiel en draait zoals je dat zou verwachten. Kan iemand me verder helpen met troubleshooten? Is er een manier om uit te zoeken wat er op Bank 8: ee00000000801136 en Bank 9: ee00000000801136 draait?
Elke reactie of denkrichting is welkom.
Een Fujitsu D3644-B moederbord, Samsung ECC geheugen (wat op de goedgekeurde lijst staat van fabrikant), Intel 660p 1TB M2 en een Intel i3-9100. Het moederbord is voorzien van de laatste firmware 1.6.
Bij het bouwen heb ik een twee live-iso's gebruikt voor controle. Eerst Ubuntu, en daarna Manjaro.
Uiteindelijk heb ik de Ubuntu desktop-variant geinstalleerd om ook applicaties te kunnen installeren. Huidige kernel is 5.3.0.29.
Het systeem is stabiel, vertoont geen rare storingen/reboots. Echter bij het opstarten flitsen er meldingen voorbij die duiden op een hardware error. Ik heb de Manjaro-livecd gebruikt om te kijken of het opgelost zijn zijn met een nieuwere kernel. Echter ook in Manjaro met de huidige kernel (5.5.0.1) geeft dezelde meldingen.
Als ik de logs opvraag met dmesg verschijn dit:
gizmo@nasbak:~$ dmesg | grep -i error
[ 0.198466] mce: [Hardware Error]: Machine check events logged
[ 0.198467] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ee00000000801136
[ 0.198468] mce: [Hardware Error]: TSC 0 ADDR 8b445140 MISC 4b040000086
[ 0.198470] mce: [Hardware Error]: PROCESSOR 0:906eb TIME 1580890443 SOCKET 0 APIC 0 microcode ca
[ 0.198471] mce: [Hardware Error]: Machine check events logged
[ 0.198471] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 9: ee00000000801136
[ 0.198472] mce: [Hardware Error]: TSC 0 ADDR 8b445100 MISC 47040000086
[ 0.198473] mce: [Hardware Error]: PROCESSOR 0:906eb TIME 1580890443 SOCKET 0 APIC 0 microcode ca
[ 0.484313] pcieport 0000:00:1b.4: DPC: error containment capabilities: Int Msg #0, RPExt+ PoisonedTLP+ SwTrigger+ RP PIO Log 4, DL_ActiveErr+
[ 0.606541] RAS: Correctable Errors collector initialized.
[ 2.272364] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro
In eerste instantie dacht ik aan verkeerd geheugen, maar dat is inmiddels omgewisseld. Memtest86+ heb ik een volle test laten draaien en geeft na 12 uur draaien 0 errors.
Mijn vraag dan:
Er lijkt wat stuk als ik de meldingen lees, maar geheugen blijkt het niet te zijn. Het systeem is verder stabiel en draait zoals je dat zou verwachten. Kan iemand me verder helpen met troubleshooten? Is er een manier om uit te zoeken wat er op Bank 8: ee00000000801136 en Bank 9: ee00000000801136 draait?
Elke reactie of denkrichting is welkom.