BSOD 0x09c - Complete systemen en laptops

zaterdag 16 april 2016 19:13

Acties:

Verwijderd

Topicstarter

Hallo

Voor een project heb ik 50 servers met (over het algemeen) dezelfde hardware. Het probleem dat ik heb komt voor op alle servers. Ondanks heel veel moeite en contact met zowel de producent en de software-ontwikkelaars heb ik nog steeds geen idee wat er misgaat.

Laat mij eerst en vooral de setup beschrijven. Dit gaat om 'servergrade' hardware. Voor een eerst ervaring is dit echt een serieuze teleurstelling.

- SuperMicro X10SDV-8C+-LN2F
- Intel Xeon D-1540 (embedded op moederbord)
- Custom gemaakte 1U kast or SuperMicro orginele
- 480 watt server PSU of 200 watt SuperMicro originele PSU
- Samsung Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECC or NON-ECC (bumaar niet gemengd in dezelfde server)
- Asus GT730 4GB DDR3 GPU
- De GPU is bevestigd met een PCIe risercard, een deel hiervan komt uit China, een ander deel is zijn SuperMicro risers

Software
- Windows Server 2012 R2 Enterprise
- VMWare Workstation 12
- VM's draaien GPU intensieve taken
- Het gehele systeem is stock, geen overklok
- Wanneer niet gecrasht draait het systeem op bijna 100% load

Symptomen
- Random BSOD 0x09c (aka Machine_Check_Exception)
- Random als in soms kan een systeem een week draaien zonder crash, maar soms ook slecht 5 minuten. Gemiddeld zou ik zeggen 12 uur.

Reeds geprobeerd
- BIOS update naar de laatste versie (ik zou zweren dat dit een verbetering was, maar gezien de totale willekeur van de BSOD's ben ik dit niet zeker meer)
- Windows geupdated naar de laatste versie
- VMWare geupdated naar de laatste versie
- Alle component gewisseld en geprobeerd.
- Alle system van scratch geconfigureerd met Linux (VMWare werkt daar ook). Ik kan niet met zekerheid zeggen hoe een Linux bluescreen er uit zien aangezien de servers toen reeds gemonteerd waren in het datacenter en headless werkten, maar na reset kreeg ik steeds een soort van foutrapport dat XORG vastgelopen was. Dit is GPU gerelateerd.
- GPU instelling in BIOS aangepast naar 'Above 4G' (op aanraden van SuperMicro)
- AMD equivalent van deze GPU heeft exact hetzelfde probleem (opmerkelijk)

Ter info
- Deze systemen draaien in een datacenter. Temperatuur, lucht, electriciteit en netwerk zijn optimaal.
- Temperaturen van de componenten zijn ver beneden de maximaal toegelaten waarden
- We draaien exact dezelfde *software* setup op goedkope desktop PC's (stroomwretend en minder efficient), die systemen draaien 247 op volle belasting. Daarvan loopt 1 PC op 100 vast per maand.
- VMWare wijst naar een hardwarematig probleem
- SuperMicro zegt niet veel zinnigs. Enkele tips maar ze hebben het probleem duidelijk nog niet eerder gezien.

Ik ben redelijk wanhopig. De applicatie die wij draaien is gelukkig redelijk redundant. Als een server vastloopt worden de taken van de VM's binnen de 5 minuten overgenomen door andere VM's op andere servers. Echter de crashes zijn aan een zodanig hoog tempo dat ik de hele dag achter de PC moeten zitten waken om servers te resetten. Dit valt eventueel te automatiseren, maar dat is geen duurzame oplossing.

Ik heb een relatief goede hardware kennis, maar dit gaat mijn petje te boven. De afgelopen 2 maken zoek ik dagelijks naar dit probleem en probeer ik verschillende dingen uit.
Het feit dat deze moederbord op grote schaal gebruikt worden bij hostingbedrijven (bvb OVH) en daar stabiel draaien wijst er volgens mij toch op dat moederbord en CPU ok zijn. Het enige wat ik hier kan bedenken is de GPU. Ook Linux wees in die richting. Ondanks het vele geheugen is dit slecht een kleine GPU. Hij trekt nie veel stroom en wordt volledig via het PCIe slot gevoed.
Exact dezelfde GPU is wel stabiel op een desktop moederbord.
Ik gebruik Chinese risers, maar dan opnieuw, de SuperMicro orginele risers hebben exact hetzelfde probleem.

Een oplossing is wat ik zoek, maar daarvoor moet ik de precieze oorzaak achterhalen.
Een expert of iemand met Supermicro of algmene ervaring zou fijn zijn, en ik heb potverdorie een flinke beloning over voor degene die mij hier uit de nood kan helpen.

Alle tips welkom!

Alvast bedankt,

Simon

zaterdag 16 april 2016 19:21

Acties:

Mel33

Ik denk dat het je Vcore voltages en je VTT (QPI) DRAM voltages zijn, dat zou je moeten nameten, maar daar in zit je probleem.

[ Voor 13% gewijzigd door Mel33 op 16-04-2016 19:26 ]

Ik ben zo blij dat de pen en de som nog steeds machtiger zijn dan het zwaard. ringo-remasterd

zaterdag 16 april 2016 19:23

Acties:

Detmer

Professioneel prutser

Al eens getest zonder 'overbodige' dingen? Dus met maar 1 bankje ram etc.

Verkoopt gebruikte computers, laptops en meer: https://tweakers.net/aanbod/user/412392/ | https://www.ipsumcomputerservice.com

zaterdag 16 april 2016 19:34

Acties:

Verwijderd

Topicstarter

mell33 schreef op zaterdag 16 april 2016 @ 19:21:
Ik denk dat het je Vcore voltages en je VTT (QPI) DRAM voltages zijn, dat zou je moeten nameten, maar daar in zit je probleem.

Hmm, dit valt inderdaad aan te passen in het BIOS. Aan de andere kant, SuperDoctor toont me dit. Zou een fout hier ook gemeten worden? Afbeeldingslocatie: http://dodopic.com/images/2016/04/16/4e1314d51a99e91c9214a9dafd6a85a7.png

Afbeeldingslocatie: http://dodopic.com/images/2016/04/16/4e1314d51a99e91c9214a9dafd6a85a7.png

Detmer schreef op zaterdag 16 april 2016 @ 19:23:
Al eens getest zonder 'overbodige' dingen? Dus met maar 1 bankje ram etc.

Nee, niet met 1 latje RAM. Maar het eerste moederbord komt van bij een SuperMicro system integrator en het RAM staat op de ondersteunde lijst.

zaterdag 16 april 2016 19:38

Acties:

Mel33

Software gebruiken om voltages uit te lezen, zou ik niks van aan nemen, ik zou het met een multimeter nameten, maar dat gaat hier niet met vcore enz, dus je zit vast aan software, en dus zou ik met verschillende programmas de boel eens monitoren.

Ps. vccp 1,84v missc is dat voor je cpu te hoog? (kheb je cpu specs niet gezien, dus tis even een gok)

[ Voor 17% gewijzigd door Mel33 op 16-04-2016 19:49 ]

Ik ben zo blij dat de pen en de som nog steeds machtiger zijn dan het zwaard. ringo-remasterd

donderdag 21 april 2016 08:59

Acties:

Mel33

Verwijderd schreef op zaterdag 16 april 2016 @ 19:13:
~~
Een oplossing is wat ik zoek, maar daarvoor moet ik de precieze oorzaak achterhalen.
Een expert of iemand met Supermicro of algmene ervaring zou fijn zijn, en ik heb potverdorie een flinke beloning over voor degene die mij hier uit de nood kan helpen.

Alle tips welkom!

Alvast bedankt,

Simon

Jammer dat je hier dan niks meer van hoort, op tweakers doen we graag helpen, en helpen zo anderen ook als ze eenzelfde probleem hebben, het gaat niet om de beloning, het gaat om closure, maar nu heb je dus hier nog 2 dingen open staan aan beloften, closure en een beloning

misscien wel 3 dingen, want het eureka moment telt ook

[ Voor 4% gewijzigd door Mel33 op 21-04-2016 09:03 ]

Ik ben zo blij dat de pen en de som nog steeds machtiger zijn dan het zwaard. ringo-remasterd

woensdag 7 juni 2017 12:19

Acties:

Verwijderd

Topicstarter

Mijn excuses alvast voor de uitgebleven reactie.
Het probleem is niet opgelost; Voor mensen die toch hetzelfde voorhebben;

- SuperMicro ontkent alles. Bij de crashes in hun testdatacenter worden bij elke bluescreen excuses verzonnen. Elk onderdeel tot de behuizing toe worden in vraag gesteld, ook al geven wij duidelijk aan meerdere modellen te gebruiken van SuperMicro zelf.
- Dit probleem doet zich enkel voor op Windows systemen die grafische taken uitvoeren. Ook met de ingebouwde GPU.
- Bij omruiling ivm bricked BIOS onder garantie stelden we vast dat SuperMicro enkele maanden later de bordjes direct uit de rekken genomen heeft. Deze werden vervangen door Rev2.0 met Xeon D-1541. Deze bordjes hebben in exact dezelfde configuratie geen probleem meer.
- Onze Belgische leverancier heeft ons laten weten meerdere klanten te hebben met hetzelfde probleem die geen oplossing krijgen van SuperMicro.