We hebben twee identieke Debian machines draaien als servers: gallery: geez (databeest). Beiden draaien Debian 9 (Stretch), gebruiken ECC RAM en zijn identiek op de HDDs na (de server in kwestie heeft 1x WD Red en 2x WD Green in plaats van 3x WD Red, maar dezelfde md-raid configuratie).
/boot en / draaien op een md raid1 van 2x Samsung 850 250GB SSDs, en /home draait op een md raid5 van de 3 HDDs.
Beiden servers draaien recente Linux kernels uit stretch-backports vanwege Ryzen compatibiliteit:
Voor install hebben we ook een BIOS update gedaan. Beide servers draaien al 3 maanden als een zonnetje. Nu zien we sinds gisteren zeer vreemde crashes op één van de twee. Gisteren leek het één van de SSDs te betreffen:

Door de
):

Op het moment dat dit gebeurde kwam er schijnbaar nog wel nieuwe tekst langs in beeld, hij was niet volledig frozen, maar de server was verder totaal unresponsive op het netwerk en er kon ook niet getypt worden. Beide keren kwam na een reboot de server gewoon weer online.
Tot toe lijken de opties voeding, moederbord, CPU of RAM. RAM testen is makkelijk, we hadden nog 2x4GB non-ECC liggen die daarvoor (terwijl het ECC RAM nog onderweg was) ook een paar dagen prima gedraaid hebben, dus die zitten er nu in.
Ideeën:
- Hardware (lijkt mij het meest waarschijnlijk gezien de ander geen issues heeft)
- Kernel upgrade (4.13 is beschikbaar in stretch-backports)
- CPU microcode update? (Ryzen is een relatief nieuw platform)
- firmware-amd-graphics installen vanwege de discrete VGA (al zijn de servers headless)?
- Deze issue. Helaas weet ik het serienummer van de CPU niet, maar beide CPUs zijn tegelijk aangeschaft, begin augustus. Ik heb kill-ryzen.sh nog niet gedraaid, maar het lijkt me dat deze CPUs van na die issue zijn..
Maar, om de diagnose te bespoedigen wil ik toch even op de collectieve kennis leunen
Alvast mijn dank.
/boot en / draaien op een md raid1 van 2x Samsung 850 250GB SSDs, en /home draait op een md raid5 van de 3 HDDs.
Beiden servers draaien recente Linux kernels uit stretch-backports vanwege Ryzen compatibiliteit:
code:
1
2
| root@fileserver:/# uname -a Linux fileserver 4.12.0-0.bpo.2-amd64 #1 SMP Debian 4.12.13-1~bpo9+1 (2017-09-28) x86_64 GNU/Linux |
Voor install hebben we ook een BIOS update gedaan. Beide servers draaien al 3 maanden als een zonnetje. Nu zien we sinds gisteren zeer vreemde crashes op één van de twee. Gisteren leek het één van de SSDs te betreffen:

Door de
code:
dacht ik aan een brakke SATA kabel, plan was dan ook om die vanochtend te vervangen. Echter vanochtend kregen we een tweede crash die niets met de SSD te maken lijkt te hebben (Excuus voor de halve foto... er heeft iemand niet opgelet 1
| ata1.00: failed command: READ FPDMA QUEUED |

Op het moment dat dit gebeurde kwam er schijnbaar nog wel nieuwe tekst langs in beeld, hij was niet volledig frozen, maar de server was verder totaal unresponsive op het netwerk en er kon ook niet getypt worden. Beide keren kwam na een reboot de server gewoon weer online.
Tot toe lijken de opties voeding, moederbord, CPU of RAM. RAM testen is makkelijk, we hadden nog 2x4GB non-ECC liggen die daarvoor (terwijl het ECC RAM nog onderweg was) ook een paar dagen prima gedraaid hebben, dus die zitten er nu in.
Ideeën:
- Hardware (lijkt mij het meest waarschijnlijk gezien de ander geen issues heeft)
- Kernel upgrade (4.13 is beschikbaar in stretch-backports)
- CPU microcode update? (Ryzen is een relatief nieuw platform)
- firmware-amd-graphics installen vanwege de discrete VGA (al zijn de servers headless)?
- Deze issue. Helaas weet ik het serienummer van de CPU niet, maar beide CPUs zijn tegelijk aangeschaft, begin augustus. Ik heb kill-ryzen.sh nog niet gedraaid, maar het lijkt me dat deze CPUs van na die issue zijn..
Maar, om de diagnose te bespoedigen wil ik toch even op de collectieve kennis leunen
[ Voor 22% gewijzigd door geez op 30-11-2017 18:30 ]