Hallo allemaal 
Ik ben Bart en ik ben programmeur die zich vooral richt op ontwikkeling rond/op het OpenCL framework. Ik heb hiervoor een zeer bescheiden test systeem met 1x 7970 voor benchmarks en code deployments.
Momenteel is de code base vrij omvangrijk te noemen en neemt het aantal tasks in omvang toe. Ik heb daarom een systeem laten samenstellen bij een computer zaak met 4x 7970. Na ontvangst van systeem en de juiste drivers te hebben geinstalleerd liep ik al vrij snel tegen koelings problemen aan.
Het systeem is toen teruggegaan en aangepast naar een grotere kast met meer ruimte en meer fans. Aangezien de 4 dicht op elkaar geplaatste kaarten voor koelings problemen zorgde is het systeem aangepast naar 3x 7990 zodat tussen elke kaart een extra PCI slot (en dus ruimte) zit.
Momenteel is het systeem als volgt samengesteld:
CPU: i7-3930K
RAM: 16GB
Voeding: LEPA 1600 watt
Case: LIAN LI PC-P80N
Grafisch: 3x XFX 7990
Mobo: Asrock X79 Extreme11
Daarbij zijn er diverse extra fans geplaatst voor een optimale airflow echter na 3-4 minuten intensief draaien staat deze al weer op 90C waarbij mijn fail-safe inschakelt en de code executie staakt zodat e.e.a. kan afkoelen. Hervatten onder een bepaalde temperatuur is mogelijk maar niet wenselijk, probleem moet opgelost worden.
Ik sta dus nu voor een keuze om het systeem nog eens nader te laten inspecteren / bekijken hoe deze problemen op te lossen maar heb zelf de uiteindelijke wens het systeem te clusteren via VirtualCL en uiteindelijk deze setup te draaien:
2 nodes met ieder i7-3930K CPU, 16 GB ram, 4x 7990 op het moederbord zoals ik nu ook heb. Deze wil ik clusteren via of infiniband of een 10 GbE kaartje i.v.m. het feit dat er per GPU core ongeveer 80-90 Mbit traffic gegenereerd word bij het aansturen vanaf de broker node. Het moet een modulaire setup worden zodat ik eenvoudig meer nodes kan toevoegen met dezelfde specs, drivers, etc.
Mijn zorgen daarbij zijn uiteraard de koeling van deze nodes, het aantal watt voor de 4x 7990's (spec sheet geeft aan dat 1x 7990 al 375 watt kan gebruiken) op deze 1600 watt voeding en of het vrij te houden PCI slot voor het infiniband kaartje of de 10 GbE netwerk kaart mogelijk weer voor ruimte problemen zorgt. De toevoer van stroom is niet het probleem (diverse groepen, etc).
Het heeft mijn voorkeur wel met een gesloten chassis te werken per node om het hier netjes te houden. Voor koeling sta ik voor alle opties open (waterkoeling, chiller, etc)...
Wie o wie kan mij helpen met het maken van de juiste keuzes
Bart
Ik ben Bart en ik ben programmeur die zich vooral richt op ontwikkeling rond/op het OpenCL framework. Ik heb hiervoor een zeer bescheiden test systeem met 1x 7970 voor benchmarks en code deployments.
Momenteel is de code base vrij omvangrijk te noemen en neemt het aantal tasks in omvang toe. Ik heb daarom een systeem laten samenstellen bij een computer zaak met 4x 7970. Na ontvangst van systeem en de juiste drivers te hebben geinstalleerd liep ik al vrij snel tegen koelings problemen aan.
Het systeem is toen teruggegaan en aangepast naar een grotere kast met meer ruimte en meer fans. Aangezien de 4 dicht op elkaar geplaatste kaarten voor koelings problemen zorgde is het systeem aangepast naar 3x 7990 zodat tussen elke kaart een extra PCI slot (en dus ruimte) zit.
Momenteel is het systeem als volgt samengesteld:
CPU: i7-3930K
RAM: 16GB
Voeding: LEPA 1600 watt
Case: LIAN LI PC-P80N
Grafisch: 3x XFX 7990
Mobo: Asrock X79 Extreme11
Daarbij zijn er diverse extra fans geplaatst voor een optimale airflow echter na 3-4 minuten intensief draaien staat deze al weer op 90C waarbij mijn fail-safe inschakelt en de code executie staakt zodat e.e.a. kan afkoelen. Hervatten onder een bepaalde temperatuur is mogelijk maar niet wenselijk, probleem moet opgelost worden.
Ik sta dus nu voor een keuze om het systeem nog eens nader te laten inspecteren / bekijken hoe deze problemen op te lossen maar heb zelf de uiteindelijke wens het systeem te clusteren via VirtualCL en uiteindelijk deze setup te draaien:
2 nodes met ieder i7-3930K CPU, 16 GB ram, 4x 7990 op het moederbord zoals ik nu ook heb. Deze wil ik clusteren via of infiniband of een 10 GbE kaartje i.v.m. het feit dat er per GPU core ongeveer 80-90 Mbit traffic gegenereerd word bij het aansturen vanaf de broker node. Het moet een modulaire setup worden zodat ik eenvoudig meer nodes kan toevoegen met dezelfde specs, drivers, etc.
Mijn zorgen daarbij zijn uiteraard de koeling van deze nodes, het aantal watt voor de 4x 7990's (spec sheet geeft aan dat 1x 7990 al 375 watt kan gebruiken) op deze 1600 watt voeding en of het vrij te houden PCI slot voor het infiniband kaartje of de 10 GbE netwerk kaart mogelijk weer voor ruimte problemen zorgt. De toevoer van stroom is niet het probleem (diverse groepen, etc).
Het heeft mijn voorkeur wel met een gesloten chassis te werken per node om het hier netjes te houden. Voor koeling sta ik voor alle opties open (waterkoeling, chiller, etc)...
Wie o wie kan mij helpen met het maken van de juiste keuzes
Bart