We hebben twee servers met de volgende specs:
Nu loopt de ene prima, maar de anders crash zonder duidelijke aanleiding (ook steeds vaker lijkt het). Eerst dacht ik dat het met het updaten van de kernel te maken had, maar dat lijkt ongerelateerd.
We kunnen geen verband vinden, met externe omstandigheden maar het lijkt wel vaker te gebeuren nu het warmer is.. (echter dit zien we nergens in de logs terug en is meer een gut feeling dan een echte correlatie)
Het volgende hebben we geprobeerd:
-smart checks van de SSD (in raid 1 boot) --> geen probleem
-smart checks van de HDDs (in raidz3) --> geen probleem
-scrub van HDDs --> geen probleem
-softwarematig uitschakelen van GPUs --> toch crash
-softwarematig uitschakelen van CPUs --> toch crash
-temperaturen & voltage monitoren --> geen probleem
-memtest --> geen probleem
-gpu burn --> geen probleem
-cpu & hdd burn --> geen probleem
/var/log/mcelog staat hier : https://pastebin.com/8kGi9ZHv
/var/log/messages staat hier : https://pastebin.com/BGGwKRPq
/var/log/boot.log staat hier : https://pastebin.com/dzrrEwpC
/var/log/dmesg staat hier: https://pastebin.com/p0erqXgC
temps:

irq:

cpu_load:

diskio:

ter vergelijking de graphs van de tweede stabiele server
temps:

irq:

cpu load:

diskio:

Ik kom er niet uit, ik begin te vermoeden dat het ofwel moederbord ofwel PSU is. Is er iemand die hier ervaring mee heeft en/ of dit herkent?
code:
1
2
3
4
5
6
7
8
9
| 1x X10DRG-OT+-CPU 2x Xeon E5-2650V4 128 GB geheugen 2x Samsung SM863,240GB 10x SEAGATE 2.5", 2TB, SATA3 6Gb/s, 8x Geforce GTX 1080 Founders Edition 1x Super Micro LSI00447 SAS3 Draait onder CentOS 7 Kernel is 3.10.0-514.21.2.el7.x86_64 |
Nu loopt de ene prima, maar de anders crash zonder duidelijke aanleiding (ook steeds vaker lijkt het). Eerst dacht ik dat het met het updaten van de kernel te maken had, maar dat lijkt ongerelateerd.
We kunnen geen verband vinden, met externe omstandigheden maar het lijkt wel vaker te gebeuren nu het warmer is.. (echter dit zien we nergens in de logs terug en is meer een gut feeling dan een echte correlatie)
Het volgende hebben we geprobeerd:
-smart checks van de SSD (in raid 1 boot) --> geen probleem
-smart checks van de HDDs (in raidz3) --> geen probleem
-scrub van HDDs --> geen probleem
-softwarematig uitschakelen van GPUs --> toch crash
-softwarematig uitschakelen van CPUs --> toch crash
-temperaturen & voltage monitoren --> geen probleem
-memtest --> geen probleem
-gpu burn --> geen probleem
-cpu & hdd burn --> geen probleem
/var/log/mcelog staat hier : https://pastebin.com/8kGi9ZHv
/var/log/messages staat hier : https://pastebin.com/BGGwKRPq
/var/log/boot.log staat hier : https://pastebin.com/dzrrEwpC
/var/log/dmesg staat hier: https://pastebin.com/p0erqXgC
temps:

irq:

cpu_load:

diskio:

ter vergelijking de graphs van de tweede stabiele server
temps:

irq:

cpu load:

diskio:

Ik kom er niet uit, ik begin te vermoeden dat het ofwel moederbord ofwel PSU is. Is er iemand die hier ervaring mee heeft en/ of dit herkent?