Hallo
Voor een project heb ik 50 servers met (over het algemeen) dezelfde hardware. Het probleem dat ik heb komt voor op alle servers. Ondanks heel veel moeite en contact met zowel de producent en de software-ontwikkelaars heb ik nog steeds geen idee wat er misgaat.
Laat mij eerst en vooral de setup beschrijven. Dit gaat om 'servergrade' hardware. Voor een eerst ervaring is dit echt een serieuze teleurstelling.
- SuperMicro X10SDV-8C+-LN2F
- Intel Xeon D-1540 (embedded op moederbord)
- Custom gemaakte 1U kast or SuperMicro orginele
- 480 watt server PSU of 200 watt SuperMicro originele PSU
- Samsung Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECC or NON-ECC (bumaar niet gemengd in dezelfde server)
- Asus GT730 4GB DDR3 GPU
- De GPU is bevestigd met een PCIe risercard, een deel hiervan komt uit China, een ander deel is zijn SuperMicro risers
Software
- Windows Server 2012 R2 Enterprise
- VMWare Workstation 12
- VM's draaien GPU intensieve taken
- Het gehele systeem is stock, geen overklok
- Wanneer niet gecrasht draait het systeem op bijna 100% load
Symptomen
- Random BSOD 0x09c (aka Machine_Check_Exception)
- Random als in soms kan een systeem een week draaien zonder crash, maar soms ook slecht 5 minuten. Gemiddeld zou ik zeggen 12 uur.
Reeds geprobeerd
- BIOS update naar de laatste versie (ik zou zweren dat dit een verbetering was, maar gezien de totale willekeur van de BSOD's ben ik dit niet zeker meer)
- Windows geupdated naar de laatste versie
- VMWare geupdated naar de laatste versie
- Alle component gewisseld en geprobeerd.
- Alle system van scratch geconfigureerd met Linux (VMWare werkt daar ook). Ik kan niet met zekerheid zeggen hoe een Linux bluescreen er uit zien aangezien de servers toen reeds gemonteerd waren in het datacenter en headless werkten, maar na reset kreeg ik steeds een soort van foutrapport dat XORG vastgelopen was. Dit is GPU gerelateerd.
- GPU instelling in BIOS aangepast naar 'Above 4G' (op aanraden van SuperMicro)
- AMD equivalent van deze GPU heeft exact hetzelfde probleem (opmerkelijk)
Ter info
- Deze systemen draaien in een datacenter. Temperatuur, lucht, electriciteit en netwerk zijn optimaal.
- Temperaturen van de componenten zijn ver beneden de maximaal toegelaten waarden
- We draaien exact dezelfde *software* setup op goedkope desktop PC's (stroomwretend en minder efficient), die systemen draaien 247 op volle belasting. Daarvan loopt 1 PC op 100 vast per maand.
- VMWare wijst naar een hardwarematig probleem
- SuperMicro zegt niet veel zinnigs. Enkele tips maar ze hebben het probleem duidelijk nog niet eerder gezien.
Ik ben redelijk wanhopig. De applicatie die wij draaien is gelukkig redelijk redundant. Als een server vastloopt worden de taken van de VM's binnen de 5 minuten overgenomen door andere VM's op andere servers. Echter de crashes zijn aan een zodanig hoog tempo dat ik de hele dag achter de PC moeten zitten waken om servers te resetten. Dit valt eventueel te automatiseren, maar dat is geen duurzame oplossing.
Ik heb een relatief goede hardware kennis, maar dit gaat mijn petje te boven. De afgelopen 2 maken zoek ik dagelijks naar dit probleem en probeer ik verschillende dingen uit.
Het feit dat deze moederbord op grote schaal gebruikt worden bij hostingbedrijven (bvb OVH) en daar stabiel draaien wijst er volgens mij toch op dat moederbord en CPU ok zijn. Het enige wat ik hier kan bedenken is de GPU. Ook Linux wees in die richting. Ondanks het vele geheugen is dit slecht een kleine GPU. Hij trekt nie veel stroom en wordt volledig via het PCIe slot gevoed.
Exact dezelfde GPU is wel stabiel op een desktop moederbord.
Ik gebruik Chinese risers, maar dan opnieuw, de SuperMicro orginele risers hebben exact hetzelfde probleem.
Een oplossing is wat ik zoek, maar daarvoor moet ik de precieze oorzaak achterhalen.
Een expert of iemand met Supermicro of algmene ervaring zou fijn zijn, en ik heb potverdorie een flinke beloning over voor degene die mij hier uit de nood kan helpen.
Alle tips welkom!
Alvast bedankt,
Simon
Voor een project heb ik 50 servers met (over het algemeen) dezelfde hardware. Het probleem dat ik heb komt voor op alle servers. Ondanks heel veel moeite en contact met zowel de producent en de software-ontwikkelaars heb ik nog steeds geen idee wat er misgaat.
Laat mij eerst en vooral de setup beschrijven. Dit gaat om 'servergrade' hardware. Voor een eerst ervaring is dit echt een serieuze teleurstelling.
- SuperMicro X10SDV-8C+-LN2F
- Intel Xeon D-1540 (embedded op moederbord)
- Custom gemaakte 1U kast or SuperMicro orginele
- 480 watt server PSU of 200 watt SuperMicro originele PSU
- Samsung Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECC or NON-ECC (bumaar niet gemengd in dezelfde server)
- Asus GT730 4GB DDR3 GPU
- De GPU is bevestigd met een PCIe risercard, een deel hiervan komt uit China, een ander deel is zijn SuperMicro risers
Software
- Windows Server 2012 R2 Enterprise
- VMWare Workstation 12
- VM's draaien GPU intensieve taken
- Het gehele systeem is stock, geen overklok
- Wanneer niet gecrasht draait het systeem op bijna 100% load
Symptomen
- Random BSOD 0x09c (aka Machine_Check_Exception)
- Random als in soms kan een systeem een week draaien zonder crash, maar soms ook slecht 5 minuten. Gemiddeld zou ik zeggen 12 uur.
Reeds geprobeerd
- BIOS update naar de laatste versie (ik zou zweren dat dit een verbetering was, maar gezien de totale willekeur van de BSOD's ben ik dit niet zeker meer)
- Windows geupdated naar de laatste versie
- VMWare geupdated naar de laatste versie
- Alle component gewisseld en geprobeerd.
- Alle system van scratch geconfigureerd met Linux (VMWare werkt daar ook). Ik kan niet met zekerheid zeggen hoe een Linux bluescreen er uit zien aangezien de servers toen reeds gemonteerd waren in het datacenter en headless werkten, maar na reset kreeg ik steeds een soort van foutrapport dat XORG vastgelopen was. Dit is GPU gerelateerd.
- GPU instelling in BIOS aangepast naar 'Above 4G' (op aanraden van SuperMicro)
- AMD equivalent van deze GPU heeft exact hetzelfde probleem (opmerkelijk)
Ter info
- Deze systemen draaien in een datacenter. Temperatuur, lucht, electriciteit en netwerk zijn optimaal.
- Temperaturen van de componenten zijn ver beneden de maximaal toegelaten waarden
- We draaien exact dezelfde *software* setup op goedkope desktop PC's (stroomwretend en minder efficient), die systemen draaien 247 op volle belasting. Daarvan loopt 1 PC op 100 vast per maand.
- VMWare wijst naar een hardwarematig probleem
- SuperMicro zegt niet veel zinnigs. Enkele tips maar ze hebben het probleem duidelijk nog niet eerder gezien.
Ik ben redelijk wanhopig. De applicatie die wij draaien is gelukkig redelijk redundant. Als een server vastloopt worden de taken van de VM's binnen de 5 minuten overgenomen door andere VM's op andere servers. Echter de crashes zijn aan een zodanig hoog tempo dat ik de hele dag achter de PC moeten zitten waken om servers te resetten. Dit valt eventueel te automatiseren, maar dat is geen duurzame oplossing.
Ik heb een relatief goede hardware kennis, maar dit gaat mijn petje te boven. De afgelopen 2 maken zoek ik dagelijks naar dit probleem en probeer ik verschillende dingen uit.
Het feit dat deze moederbord op grote schaal gebruikt worden bij hostingbedrijven (bvb OVH) en daar stabiel draaien wijst er volgens mij toch op dat moederbord en CPU ok zijn. Het enige wat ik hier kan bedenken is de GPU. Ook Linux wees in die richting. Ondanks het vele geheugen is dit slecht een kleine GPU. Hij trekt nie veel stroom en wordt volledig via het PCIe slot gevoed.
Exact dezelfde GPU is wel stabiel op een desktop moederbord.
Ik gebruik Chinese risers, maar dan opnieuw, de SuperMicro orginele risers hebben exact hetzelfde probleem.
Een oplossing is wat ik zoek, maar daarvoor moet ik de precieze oorzaak achterhalen.
Een expert of iemand met Supermicro of algmene ervaring zou fijn zijn, en ik heb potverdorie een flinke beloning over voor degene die mij hier uit de nood kan helpen.
Alle tips welkom!
Alvast bedankt,
Simon