High-end computer voor real-time video analyse - Desktop koopadvies

vrijdag 15 september 2017 16:06

Acties:

Topicstarter

Wat wil je doen met je nieuwe systeem?
Dit is denk ik een niet heel standaard systeem, maar ik hoop dat jullie me toch kunnen helpen! Ik heb een systeem nodig dat real-time analyse kan uitvoeren op 10 high-speed video streams. De real-time taken zijn nodig, omdat het onderdeel is van een regelsysteem. De gegenereerde data zal ook worden opgeslagen voor uitgebreide offline analyse. Dit vergt een hoge geheugen bandbreedte, multi-core processor en veel PCIe lanes. In iets meer achtergrond voor het geval het nodig is:

10 video streams (plm 200 Hz) komen via een PCI-Express port extender host adapter het systeem binnen. De host adapter breidt in feite de PCIe bus uit tot aan de cameras. De data wordt via DMA direct in het geheugen geschreven. Host adapter interface = PCIe 3.0 x16.
Het systeem moet dit gedurende plm 4 seconden doen en in die tijd ook knetterhard verschillende beeld-analyse algoritmen draaien. Het zal draaien op Scientific Linux en tijdens de 4 seconden worden alle interrupts stilgelegd. Algoritmen worden vanuit C gecompileerd. In principe zal ik een thread per video stream gebruiken. Op basis van ervaring uit het verleden zal hyper threading uitgeschakeld worden en is er voorkeur aan een enkele CPU. Een CPU zal Linux e.d. draaien, de rest de analyse taken. Bij de voorgestelde CPU kan er 1 stream dus al niet geanalyseerd worden (niet een enorme ramp, maar liever wel).
Er zal zo'n 5-8 GB/s via de PCIe bus binnenkomen. Dit moet zo snel mogelijk in het RAM worden weggeschreven, zodat er zoveel mogelijk tijd overblijft voor de analyse.
Op termijn wil ik proberen mbv NVIDIA GPUDirect RDMA de data direct in het geheugen van de GPU te laten schrijven, en de analyse op de GPU uit te voeren. Daarvoor denk ik een Quadro P5000 te gaan gebruiken (min. een P4000 nodig). Hoewel ik me daar pas later op richt, moet het systeem erop voorbereid zijn.
Het systeem zal nog een andere gespecialiseerde PCIe kaart bevatten dat een x4 slot nodig heeft.
Na een run wordt 10-20 GB weggeschreven naar een HDD en gekopieerd naar een ander opslagsysteem. De harde schrijf moet denk ik plm een TB kunnen bufferen.

Wat mag het systeem gaan kosten?
Kosten zijn niet de allerbelangrijkste overweging, maar moeten wel aan m'n baas te verantwoorden zijn.

Zijn er componenten of randapparatuur die je al hebt en mee wil nemen naar je nieuwe systeem?
Ik heb hierboven al een paar componenten genoemd die er sowieso in moeten komen.

Wat denk je allemaal nodig te hebben?
64 GB geheugen, 1 TB opslag, minstens 10 cores

Heb je nog bepaalde (merk)voorkeuren?
In principe heeft Intel de voorkeur omdat de Intel C-compiler (icc) sterk geoptimaliseerde executables genereert. Ik heb begrepen dat je ook op AMD CPUs redelijk goede code kan genereren wanneer je handmatig de compilation flags voor alle extensions goed zet. Hier hebben we geen ervaring mee, met icc wel. AMD Threadripper is in principe een zeer interessante nieuwe optie, en AMD heeft de AOCC compiler uitgebracht, maar ik weet niet hoe die zich verhoudt met Intel's aanbod.

Heb je nog bepaalde eisen/wensen?
Het systeem moet in een 19" rack geplaatst worden. Ik denk dat 3U of 4U voldoende moet zijn, maar heb hier nog geen ervaring mee.

Ga je overklokken?
Collega's hebben in het verleden al gewerkt met het automatisch overklokken van hetzelfde type systemen voor de duur van de run (dus voor plm 10 sec). Dit wil ik ook gaan toepassen als het nodig blijkt. Ook wil ik onderzoeken of het overklokken van het geheugen veel winst op kan leveren (ook weer tijdelijk).

Wat verwacht je van ons?[i]
Hieronder staan de basis componenten voor een mogelijk systeem. Mijn vragen:

Wat zou een goede power supply zijn?
Wat voor 19" rack mount (kast) raden jullie aan?
Wat voor koeling heeft dit systeem nodig? Wat voor CPU/chipset koeler zou je aanraden?
Zijn er betere componenten denkbaar? Zou een AMD systeem niet toch voordelen opleveren (meer PCIe lanes, ECC geheugen, goedkoper)?

#	Product	Prijs	Subtotaal
1	Intel Core i9-7900X (Boxed)	€ 925,95	€ 925,95
1	Asus Prime X299-Deluxe	€ 383,-	€ 383,-
1	HP NVIDIA Quadro P5000 (16-GB) grafische kaart	€ 2.445,41	€ 2.445,41
1	G.Skill Trident Z F4-4200C19Q2-64GTZKK	€ 1.165,-	€ 1.165,-
1	Samsung 960 EVO 1TB	€ 449,-	€ 449,-
Bekijk collectie Importeer producten		Totaal	€ 5.368,36

Ik hoop dat jullie me verder kunnen helpen, alvast bedankt dat je zover gelezen hebt!

vrijdag 15 september 2017 16:10

Acties:

armageddon_2k1

Misschien snap ik de use-case niet helemaal, maar waarom moet iets 4 seconden real-time draaien? Het klinkt alsof je een butt-load aan data binnenkrijgt die 4 seconden en er dan post-analyse gedaan moet worden. Is het dan niet logischer dat daarna te doen? Dan zorg je er eerst voor dat alle data netjes weggeschreven is en daarna ga je intensieve, niet realtime, algoritmen draaien.

Of zijn het continu bursts van 4s ?

offtopic:
Beest van een machine in je signature overigens

[ Voor 12% gewijzigd door armageddon_2k1 op 15-09-2017 16:12 ]

Engineering is like Tetris. Succes disappears and errors accumulate.

vrijdag 15 september 2017 16:15

Acties:

Woutepout

Topicstarter

Goede vraag, had ik moeten verduidelijken (topic nu aangepast). De offline analyse zal inderdaad gaan zoals je beschrijft, maar er is een goede reden voor het real-time gedeelte: control. Het wordt onderdeel van een digitaal regelsysteem. In de 4 seconden zal de geanalyseerde data real-time doorgestuurd worden naar andere nodes van het regelsysteem, die allerhande actuatoren moeten aansturen. De "speciale kaart" die ik noemde is een zogenaamde reflective memory card die dat met zeer lage latency kan doen.

offtopic:
Haha, ja, goed dat je me erop wijst! Mijn account hier is al 17 jaar oud en al een tijdje niet meer echt gebruikt. Die Duron 800 MHz is niet meer zo actueel, dus ik heb 'm maar verwijderd.

[ Voor 19% gewijzigd door Woutepout op 15-09-2017 16:31 ]

vrijdag 15 september 2017 16:23

Acties:

route99

just passionately curious...

Hoe performed een cluster van pc's met een graphics die een veel betere prijs/kwaliteit hebben dan deze "exoot"...?
Uiteraard heb je dan ook andere hardware nodig.. maar die hoeven dan ook wellicht minder advanced te zijn.. Je laat immers nu alles via een moederbord lopen.... dat wordt dan verdeeld over 4 moederborden bijvoorbeeld.
Een PHD (TUT) heeft zo ism ons (inmiddels al weer ca 10j geleden) 4 Linux systemen zo gebruikt voor zijn coarse-grained modeling...

Ik zie dat je de output wel naar een node laat gaan....

[ Voor 11% gewijzigd door route99 op 15-09-2017 16:25 ]

vrijdag 15 september 2017 16:28

Acties:

Woutepout

Topicstarter

route99 schreef op vrijdag 15 september 2017 @ 16:23:
Hoe performed een cluster van pc's met een graphics die een veel betere prijs/kwaliteit hebben dan deze "exoot"...?
Uiteraard heb je dan ook andere hardware nodig.. maar die hoeven dan ook wellicht minder advanced te zijn.. Je laat immers nu alles via een moederbord lopen.... dat wordt dan verdeeld over 4 moederborden bijvoorbeeld.
Een PHD (TUT) heeft zo ism met ons (inmiddels al weer ca 10j geleden) 4 Linux systemen zo gebruikt voor zijn coarse-grained modeling...

Ik heb bewust naar een oplossing gezocht die uit een machine bestaat, omdat dat het integreren in het regelsysteem sterk vereenvoudigd. De regeltaken zijn nogal tijdkritisch, dus met een machine is synchronisatie e.d. een stuk eenvoudiger. De cameras en interface die dit mogelijk maken staan hier beschreven:
https://www.ximea.com/en/...bedded-vision-cameras-xiX.
Dit had trouwens ook met kosten te maken, want met een andere camera interface had ik waarschijnlijk 5 machines nodig gehad. Het regelsysteem is een klein netwerk van 6-7 machines die allemaal specifieke taken uitvoeren en via RFM (reflective memory) met elkaar communiceren.

[ Voor 11% gewijzigd door Woutepout op 15-09-2017 16:30 ]

vrijdag 15 september 2017 16:33

Acties:

route99

just passionately curious...

Oke ,....cool

Is het voor " Autonomous self-driving vehicles,"..onderzoek (er stonden nog meer applicaties...) of mag je het niet beschrijven hier... ? Zag het niet zo snel staan.
Succes iig.

vrijdag 15 september 2017 16:47

Acties:

Woutepout

Topicstarter

Nee, het is voor natuurkundig onderzoek. Als ik het zeg, kan ik meteen heel makkelijk geïdentificeerd worden. Misschien niet erg, maar daar moet ik nog over nadenken.

Het is wel heel cool!

vrijdag 15 september 2017 17:13

Acties:

route99

just passionately curious...

Aha... mogelijk supergeleidende materialen... zit ik er ver naast...

vrijdag 15 september 2017 17:17

Acties:

MAX3400

XBL: OctagonQontrol

Dan zou ik die EVO eruit halen. Die redt nooit 8GB/s ALS er data naar disk moet. Je zit dan snel aan PCIe adapters waar je meerdere NVME-SSD's in RAID0 kan zetten.

Of Intel PC3700 SSD's en die, mits ondersteund door het OS, als een JBOD inzetten.

Mijn advertenties!!! | Mijn antwoorden zijn vaak niet snowflake-proof

vrijdag 15 september 2017 17:48

Acties:

Woutepout

Topicstarter

De data zal gebufferd worden in het RAM en na de run (dus die 4 sec) worden weggeschreven naar de disk.

vrijdag 15 september 2017 18:02

Acties:

M2M

medicijnman

hoeveel tijd heb je na die 4 seconden?

-_-

vrijdag 15 september 2017 18:28

Acties:

DaniëlWW2

Moderator General Chat

Dyslectic history cynic

Ik ben niet bepaald een expert als het om de software kant gaat, ben beter ingelezen als het om hardware gaat. Had je eigenlijk al een volledig AMD systeem overwogen met een Threadripper 1950X en een Radeon Pro WX 9100? Die laatste zou deze week uit zijn gekomen, voor 2200 dollar, en qua prestaties rond de Quadro P6000 moeten zitten, of nog een tandje sneller. Het is een Vega 10 GPU, dus 484GB/s geheugen bandbreedte met HBM2, maximaal 24,6 TFLOPS FP16/ 12,3 TFLOPS FP32 wat een stuk beter is dan een Quadro P5000.

Wat zou kunnen als je heel wat meer budget had, en wat misschien ook wel interesant is, is de Radeon Pro SSG. Dat is dezelfde chip, maar dan met M.2 SSD's die aangesproken kunnen worden door de geheugencontroller van de kaart, alsof het extra werkgeheugen is. Vega 10 kan out of the box al systeem RAM direct aanspreken, zonder tussenkomt van de CPU, maar dit is weer een nieuwe stap. Voornamelijk bedoeld voor zaken zoals 8K beeldmateriaal vloeiend editen, maar eventueel hier ook relevant. Wel erg duur, 6000 dollar+, dus waarschijnlijk geen optie.

Qua Threadripper lijkt daar het maximale 3600MHz te zijn qua RAM snelheid wat een probleem kan zijn. Het ligt er denk ik aan of je alle load op de GPU haar geheugen af kan schrijven of Threadripper hier het betere platform is. Het platform is in ieder geval beter qua prijs, aantal cores en PCI-E lanes.

AMD is het afgelopen jaar ook heel erg bezig geweest met software ondersteuning voor dergelijke hardware goed te krijgen. In feite hebben ze de meeste functies van CUDA geport. Ik weet alleen niet wat de limitaties van dit platform, ROCm (Radeon Compute Open) zijn. Meer dan dit kan ik je denk ik dan ook niet helpen.

Never argue with an idiot. He will drag you down to his own level and beat you with experience.

vrijdag 15 september 2017 18:29

Acties:

jaspervv99

Waarom pak je geen AMD Ryzen Threadripper 1950X i.c.m. een Gigabyte Aorus X399 Gaming 7? 6 cores meer die op nagenoeg dezelfde kloksnelheid draaien? Geeft je voor dat geld een stuk meer rekenkracht.

vrijdag 15 september 2017 18:42

Acties:

MAX3400

XBL: OctagonQontrol

Woutepout schreef op vrijdag 15 september 2017 @ 17:48:
De data zal gebufferd worden in het RAM en na de run (dus die 4 sec) worden weggeschreven naar de disk.

Ik snap het nog steeds niet?

Je zegt tot 8GB/s te genereren gedurende 4 seconden oftewel 32GB Daarna wordt "de buffer" weggeschreven naar disk. In de topicstart zeg je tot 1TB aan buffered spul te willen opslaan. Nou ken ik jouw werk niet maar moet de 1TB daarna geflushed worden of verder bewerkt of verder verplaatst (op een netwerk ofzo)?

Vandaar dat ik zei dat je misschien je moest interesseren voor andere storage. Een single EVO haalt geen realistische snelheden; in het gunstigste geval ben je 13 seconden bezig om je 32GB op te slaan. Een oplossing (zeker voor zeer korte termijn data) is dus meerdere SSD's in RAID0 o.i.d. maar met enige nuance; jij moet ons voorlichten over de totale datastreams; we kunnen niet gokken.

En daarnaast, maar dat is mijn mening: als de data dus kortstondig is maar wel essentieel/kritiek en met die hoge bandbreedtes, regel ECC RAM. Zeker omdat je zeke moet (???) weten dat inkomende data helemaal correct wordt behandeld, doorberekend en opgeslagen.

Mijn advertenties!!! | Mijn antwoorden zijn vaak niet snowflake-proof

vrijdag 15 september 2017 20:03

Acties:

armageddon_2k1

Een plaatje zegt meer dan 1000 worden. Het is volgens mij een interessante case, en menig Tweaker zal hier kunnen helpen, echter zijn de details onduidelijk. Daarom is een plaatje misschien wat makkelijker. Kan je wellicht een soort tijdslijn schetsen inclusief de datastromen en hun kwantiteiten? Dan is het makkelijker in kaart te brengen waar de bottlenecks en de eventuele points of failure komen te liggen. Daarnaast ook een stuk makkelijker op deze manier te troubleshooten en te verantwoorden.

Ik merk dat je al heel veel oplossingen zelf gekozen heb, en, hoewel daar ongetwijfeld veel kennis en goede redenen achter liggen, ligt de architectuur daarmee wel een stuk meer vast. Hoe flexibel ben je?

Kan je in de meest basale vorm misschien een plaatje schetsen? Wat komt er wanneer binnen? Waar moet het heen en wanneer? Wat gebeurt er daarna?

[ Voor 26% gewijzigd door armageddon_2k1 op 15-09-2017 20:05 ]

Engineering is like Tetris. Succes disappears and errors accumulate.

zaterdag 16 september 2017 15:13

Acties:

Woutepout

Topicstarter

Ok, fijn dat er zo enthousiast wordt meegedacht! Ik zie dat het inderdaad nodig is om meer duidelijkheid te bieden, dus dat doe ik bij deze. Ik zei al, ik zal wel geïdentificeerd kunnen worden, maar ik geloof niet dat ik gênante dingen heb gepost onder deze accountnaam.

Wat achtergrond
Dit systeem is het acquisitiesysteem van een meetinstrument dat op de Zwitserse tokamak (fusiereactor) TCV zal worden geplaatst. Voor meer info over TCV, zie http://spc.epfl.ch/research_TCV_Tokamak (site niet heel compleet, maar genoeg info om het duidelijk te maken denk ik). In TCV wordt plm elke 15 min een "schot" of "puls" (een plasma) gemaakt, die elk 2 tot 4 seconden duren. Tijdens zo'n schot worden enorme hoeveelheden gegevens verzameld over het plasma door een groot aantal meetsystemen, die allemaal in een database komen om achteraf te geanalyseerd te worden. Tegelijkertijd lopen er tijdens het schot een hele reeks aan regellussen (control loops) om de machine aan te sturen. Deze regelsystemen worden ook gevoed door (een subset van) dezelfde meetsystemen. De regelsystemen zijn in feite algoritmen die draaien op een ring-netwerk van 6 computers, welke allemaal gesynchroniseerd zijn en op 10 kHz (dus elke 0.1 ms) nieuwe stuursignalen naar actuatoren (verhittingssystemen, magneetspoelen, etc) sturen. Mocht je interesse hebben, hier is een voorbeeld van een paper hierover: http://www.euro-fusionsci...1CP16_16542_submitted.pdf. Meer kun je vinden door op scholar.google.com de woorden TCV en SCD in te tikken.

Wat gebeurt er met de video data?

de 10 cameras lopen ook synchroon, en zullen typisch elk 500-600 MB/s genereren en maximaal 800 MB/s.
deze data moet met minimale latency in het geheugen terechtkomen, zodat er genoeg tijd over is tussen twee opeenvolgende frames om de beeldanalyse algoritmen te laten uitvoeren. Hieraan kun je denken aan bijv. het optisch detecteren van de vorm van het plasma, het schatten van de temperatuur van de buitenste rand van het plasma, machine learning identificatie van bepaalde gebeurtenissen, etc.
de geanalyseerde (gereduceerde) data (1-10 MB/s) wordt in een speciaal geheugen geschreven wat met lage latency wordt gerepliceerd in het geheugen van de andere nodes van het regelsysteem. Die andere nodes zullen de actuatoren aansturen.
De videodata is ook waardevolle wetenschappelijke data en moet dus opgeslagen worden voor verdere analyse op een later moment. De ruwe videodata wordt dus in het RAM gebufferd tot na het schot, waarna het op rustig tempo weggeschreven kan worden naar de harde schijf. Dit is niet erg tijdkritisch, maar hiervoor wil ik wel een vlotte SSD, omdat het prettig is om redelijk vlot naar je data te kunnen kijken na het schot (binnen een minuut ofzo). Voor buffering zou in principe 32 GB RAM geheugen genoeg kunnen zijn, maar ik wil over een tijdje snellere cameras gaan gebruiken die meer data genereren. Daarnaast wil ik marge hebben voor OS, andere meetdata, grote resultaat-arrays, etc. Vandaar dat ik 64 GB aan RAM nodig heb.
De weggeschreven data wordt in de 15 minuten tussen schoten over een standaard netwerk naar een database server gestuurd, die het voor de lange termijn opslaat. De database wordt wel gebackupt (hoe schrijf je dat?), maar dat gebeurt pas 's nachts en in het weekend. In die periode wil ik een lokale kopie houden. Om ook nog de data vlot bij de hand te hebben tijdens een week met experimenten, is het prettig om plm een week aan data lokaal op de harde schijf te bewaren. Dit heb ik een beetje onhandig ook een buffer genoemd, excuus.

Deze krachtige machine wil ik trouwens ook inzetten voor de offline analyse achteraf (bijv. 's nachts of in het weekend). Dat zijn veel uitgebreidere numerieke codes. Er zijn ook analyse clusters waar ik gebruik van kan maken maar ik wil gaan experimenteren met GPU processing, dus dan is de acquisitie machine een goede testbed. Daarvoor is dus een vlotte SSD, veel geheugen, en veel cores ook fijn.

zaterdag 16 september 2017 15:38

Acties:

CMD-Snake

[b][message=52593109,noline]Woutepout schreef op vrijdag 15 september 2017 @ 16:06[/messageWat mag het systeem gaan kosten?
Kosten zijn niet de allerbelangrijkste overweging, maar moeten wel aan m'n baas te verantwoorden zijn.

Woutepout schreef op zaterdag 16 september 2017 @ 15:13:
Wat achtergrond
Dit systeem is het acquisitiesysteem van een meetinstrument dat op de Zwitserse tokamak (fusiereactor) TCV zal worden geplaatst. Voor meer info over TCV, zie http://spc.epfl.ch/research_TCV_Tokamak (site niet heel compleet, maar genoeg info om het duidelijk te maken denk ik). In TCV wordt plm elke 15 min een "schot" of "puls" (een plasma) gemaakt, die elk 2 tot 4 seconden duren. Tijdens zo'n schot worden enorme hoeveelheden gegevens verzameld over het plasma door een groot aantal meetsystemen, die allemaal in een database komen om achteraf te geanalyseerd te worden. Tegelijkertijd lopen er tijdens het schot een hele reeks aan regellussen (control loops) om de machine aan te sturen. Deze regelsystemen worden ook gevoed door (een subset van) dezelfde meetsystemen. De regelsystemen zijn in feite algoritmen die draaien op een ring-netwerk van 6 computers, welke allemaal gesynchroniseerd zijn en op 10 kHz (dus elke 0.1 ms) nieuwe stuursignalen naar actuatoren (verhittingssystemen, magneetspoelen, etc) sturen. Mocht je interesse hebben, hier is een voorbeeld van een paper hierover: http://www.euro-fusionsci...1CP16_16542_submitted.pdf. Meer kun je vinden door op scholar.google.com de woorden TCV en SCD in te tikken.

Je wil dus een systeem hebben voor belangrijk wetenschappelijk onderzoek? Dan zou ik dus nooit, never een zelfbouw systeem aanraden. Zelfbouw is voor thuis en andere hobby-bob toepassingen. Ik neem aan dat jij geen kernfusiereactor in je schuurtje aan het bouwen bent.

Koop liever een zware PC of workstation bij een OEM als Dell of HP. Deze systemen hebben namelijk de garantie dat alle geleverde hardware en software zal werken met elkaar. Plus als er een defect optreed dan heb je met een werkdag een monteur op de stoep staan.

Bij zelfbouw heb je geen van deze garanties. Hoeveel kost het als jullie een dag tot een week geen gebruik kunnen maken van dit systeem? Hoe ga je dat aan de baas uitleggen?

Bij HP zou ik gaan kijken naar de HP Z840, bij Dell naar de Precision reeks. Je kan bij zowel Dell als HP de workstations configureren naar je eigen behoeftes. Een 10c/20t Xeon behoord tot de opties net als een dikke Quadro en veel GB's aan ECC geheugen. HP Z-workstations en Dell Precision workstation kunnen ook als rackmounts geleverd worden.

zaterdag 16 september 2017 16:12

Acties:

Woutepout

Topicstarter

CMD-Snake schreef op zaterdag 16 september 2017 @ 15:38:

Je wil dus een systeem hebben voor belangrijk wetenschappelijk onderzoek? Dan zou ik dus nooit, never een zelfbouw systeem aanraden. Zelfbouw is voor thuis en andere hobby-bob toepassingen. Ik neem aan dat jij geen kernfusiereactor in je schuurtje aan het bouwen bent.

Koop liever een zware PC of workstation bij een OEM als Dell of HP. Deze systemen hebben namelijk de garantie dat alle geleverde hardware en software zal werken met elkaar. Plus als er een defect optreed dan heb je met een werkdag een monteur op de stoep staan.

Bij zelfbouw heb je geen van deze garanties. Hoeveel kost het als jullie een dag tot een week geen gebruik kunnen maken van dit systeem? Hoe ga je dat aan de baas uitleggen?

Bij HP zou ik gaan kijken naar de HP Z840, bij Dell naar de Precision reeks. Je kan bij zowel Dell als HP de workstations configureren naar je eigen behoeftes. Een 10c/20t Xeon behoord tot de opties net als een dikke Quadro en veel GB's aan ECC geheugen. HP Z-workstations en Dell Precision workstation kunnen ook als rackmounts geleverd worden.

Er zijn meerdere IMO goede redenen. De andere nodes v/h controlesysteem zijn op een vergelijkbare manier gebouwd (door Zwitserse collega's) en ik wil zoveel mogelijk repliceren. Er zitten vrij specifieke eisen aan de hard-/software. Bijv. de RFM kaart draait op aangepaste drivers, waarmee via een custom interface gecommuniceerd wordt. Het getriggerd overklokken van een machine (alleen tijdens het schot) is iets waar m'n collega's een oplossing voor hebben, gebaseerd op een ASUS moederbord. Dit soort dingen zijn er meer van en dat heeft een hoop tijd gekost om te ontwikkelen. Het hele systeem draait uitstekend en wordt onderhouden en gebouwd door mensen met erg veel kennis en ervaring. De node die ik wil toevoegen heeft andere eisen, dus zij kunnen me niet direct een componenten lijst geven. Ikzelf ben natuurkundige, geen ITer. Ik moet nu zo snel mogelijk in Nederland iets opbouwen wat naar Zwitserland verscheept kan worden (voor het eerst dat het zo gedaan wordt), dus ik hoop mbv wat advies in ieder geval de juiste grote keuzes te maken.

In Zwitserland zal ik ondersteund worden door mensen die veel meer weten dan de gemiddelde sales engineer van Dell. Ik heb voorbeelden gezien van een server die crashte, waar het halve lab op werkte, die binnen twee uur weer draaide, inclusief een rit naar de lokale computer winkel. We hebben de ervaring dat Dell/HP dat niet kunnen bieden. Ik heb ook uitgebreid gesproken met onze eigen (NL) IT afdeling en zij raden me af om een standaard Dell systeem te bestellen (waar we al een groot contract hebben), onder andere omdat ze niet snel genoeg de juiste expertise zullen kunnen bieden. Er is simpelweg haast bij. Ik vind jouw aanname dat "zelfbouw = hobby-bob" een beetje vooringenomen, als ik eerlijk ben.

Ik hoop dat we hier een discussie kunnen hebben over de vragen die ik gesteld heb, niet over de keuzes die ik tot nu toe (niet lichtzinnig) heb gemaakt.

zaterdag 16 september 2017 16:48

Acties:

DaniëlWW2

Moderator General Chat

Dyslectic history cynic

Kan je geen contact opnemen met die mensen in Zwitserland voor wat beter advies? Dit is namelijk wel even andere koek dan een servertje dat aardig moet draaien. Kernfusieonderzoek nog wel, dat is een totaal ander niveau. Je gaat dan ook met speciale software werken, kennelijk buiten standaard software platformen. Kennelijk allemaal speciale software is, onderhouden door een speciaal team ICT team, en dan krijg jij even het verzoek het uit te zoeken.

In ieder geval heb je hiervoor wel ECC RAM nodig, dat is hier absoluut geen overbodige luxe. Die setjes komen alleen met een maximale snelheid van 2667MHz. Dan lijkt de 1950X de betere keuze te zijn, want die CPU is sneller dan de 7900X in de meeste taken. De belangrijkste vraag hier is denk ik of een Vega 10 kaart zal werken, vanuit de kant van softwarematige ondersteuning. Dat is nogal een puntje als je op dit niveau van computer hardware gaat werken. Ik snap eigenlijk ook helemaal niet waarom jij met dit probleem wordt opgezadeld.

[ Voor 13% gewijzigd door DaniëlWW2 op 16-09-2017 16:54 ]

Never argue with an idiot. He will drag you down to his own level and beat you with experience.

zaterdag 16 september 2017 18:01

Acties:

CMD-Snake

Woutepout schreef op zaterdag 16 september 2017 @ 16:12:
Ikzelf ben natuurkundige, geen ITer.

Ik ben zelf systeembeheerder. Voor 'mission critical' spul koop je alleen bij de grote OEMs hardware. Het gaat dan vooral om de garanties die afgegeven worden op dergelijke systemen.

In Zwitserland zal ik ondersteund worden door mensen die veel meer weten dan de gemiddelde sales engineer van Dell. Ik heb voorbeelden gezien van een server die crashte, waar het halve lab op werkte, die binnen twee uur weer draaide, inclusief een rit naar de lokale computer winkel. We hebben de ervaring dat Dell/HP dat niet kunnen bieden.

Dell en HP kunnen indien nodig binnen 4 uur (na de melding) een monteur bij jou op de stoep hebben staan. Je moet dan alleen een luxer support contract afsluiten. Dat heb ik al regelmatig meegemaakt dat we zo dezelfde dag nog de nieuwe onderdelen op de zaak hadden liggen. Op belangrijke systemen kan je zelfs afspreken dat ze in het weekend nog komen of op feestdagen. Het is een kwestie van geld dan.

Het nadeel van een trip naar de computerwinkel is dat deze mogelijk gesloten is of het onderdeel niet (meer) heeft. Je hebt met die defecte server mazzel gehad. Dat had namelijk veel erger kunnen aflopen. Stel nu dat die server op leeftijd was en onderdelen niet zo eenvoudig meer aan te komen waren?

Ik zou iets als deze bestellen: http://store.hp.com/Nethe...d=T4K64ET&opt=ABB&sel=WKS

Je moet alleen nog een videokaart kiezen. Maar de 14c/28t die je standaard krijgt samen met 32GB ECC DDR4 ben je al een aardig eind onderweg. Deze workstations zijn ook gecertificeerd voor Windows en Linux. Voor Ubuntu, Red Hat/CentOS en SUSE levert HP alle drivers mee. Erg handig indien je Linux draait.

Ik heb ook uitgebreid gesproken met onze eigen (NL) IT afdeling en zij raden me af om een standaard Dell systeem te bestellen (waar we al een groot contract hebben), onder andere omdat ze niet snel genoeg de juiste expertise zullen kunnen bieden. Er is simpelweg haast bij. Ik vind jouw aanname dat "zelfbouw = hobby-bob" een beetje vooringenomen, als ik eerlijk ben.

Er is niets vooringenomen aan de stelling zelfbouw = hobby-bob. Dat is het gewoon. Voor thuis is het leuk of als je student bent, maar jij bent beroepsmatig bezig. Dat vereist een andere aanpak. Eerdere vraag heb je ook niet beantwoord, wat is de schade die je oploopt als je systeem meer dan een dag plat ligt?

Je huidige moederbord kan zo te zien niet werken met ECC RAM. Lijkt mij wel zo wenselijk voor je onderzoek. Een bit flip kan misschien je hele experiment ongeldig maken of een berekening verpesten. Bij onderzoek naar kernfusie telt elk getal en de correctheid van de berekening.

Bedenk ook hoe je om moet gaan met garanties. Als je iets in Nederland koopt bij Azerty en het gaat in Zwitserland stuk, dan zal je langs Azerty in Nederland moeten gaan voor je garantie.

zondag 17 september 2017 02:12

Acties:

Coolstart

(edit: zware edit ;-)
Als ik het goed begrijp komt er om de 15 min een burst van data binnen binnen van 4seconden via de PCIE-host extender. Op die real-time data worden in diezelfde 4 seconden algoritmes gedraaid.

Zoals je zelf aan aangeeft kan je al dit veel beter uitvoeren in het ram van uw grafische kaart. Dit biedt veel voordelen omdat je alles parallel kan draaien op duizenden gpu-cores en uw 'trage' cpu wordt ontlast. Ik snap dat je alles 1 systeem wil draaien maar alles wijst er op dat je zal doorgroeien in een GPU-intensieve omgeving met een focus op parallelisering. Uw cpu is dan niet meer dan een data manager en doet zelf niet aan analyse of manipulatie van gegevens.

Ofwel steek je die Gpu's op 1 moederbord ofwel ga je kijken naar E gpu's. Als dat het geval is zou ik eens gaan kijken naar de setup van bitcoin miners. Daar is efficiëntie en scaling key.

Als het systeem schaalbaar moet zijn zou ik alles opdelen in 2 taken/systemen.

1. Data burst opvangen en in zijn geheel veilig webschrijven (CPU-intensief)
2. Data burst realtime analyseren en de gereduceerde output veilig wegschrijven (GPU-intensief)

Als je die twee taken opdeelt denk ik dat je later de NVIDIA GPUDirect makkelijker kan implementeren. Mss kan je beter starten met het bouwen van 2 systemen. 1 om de data te capteren en een ander systeem om de data te anlyseren. Dan zou je de ruwe output van de sensor data moeten splitsen in twee en zo 2X tegelijk laten toekomen. (net zoals een hdmi-splitter werkt)

Ze bouw je ook redundancy in. Ook al loopt uw algoritme spaak, dan heb je toch nog uw data en andersom. Je kan ook makkelijker schalen en het geheel is stabieler.

Capteren van data is relatief simpel. Eens het systeem draait zal het hoogst waarschijnlijk stabiel blijven, je kan het wegzetten en lange tijd met rust laten.

Het systeem waar de algoritmes op draaien is complexer en zal waarschijnlijk meer updates krijgen en meer aanpassingen moeten verdragen, de kans dat er iets misloopt is veel groter. Als uw ram plots vol loopt door een bug crahsed alles in no time.

Ook dit issue los je op:
"Deze data moet met minimale latency in het geheugen terechtkomen, zodat er genoeg tijd over is tussen twee opeenvolgende frames om de beeldanalyse algoritmen te laten uitvoeren."

Je moet dan wel de data kunnen splitsen. In dit geval lijkt het rechstreeks via pci-e binnen te komen. Ik weet niet er een 38pin cable splitter bestaat maar in het ergste geval kan je die nog zelf maken met wat soldeerwerk. Als die twee systemen naast elkaar in een rack staan is dat handiger.

Wat de GPU betreft (en deep learning in mind) zou ik voor een Nvidia 1080ti gaan. (Veel goedkoper en sneller dan die quadro) Die heeft 10tflops+ 380Gb/s bandbreedte en dat met een tdp van 250watt en een grote CUDA community wat deep learning in C betreft. Amd en Intel zijn minder interessant. (Bron) Je kan later nog uitbreiden naar een multi-gpu setup.

Deep learning vraag wel wat experimenteren met uw code. Reden te meer om voor een 2-systeem oplossing te gaan. Een dual gpu-oplossing kan ook, niet om dingen parallel te draaien (complexer!) maar voor praktische redenen. Zo kan je makkelijker experimenteren welke code de beste resultaten oplevert.

Ik zou wel een systeem kiezen met ECC. Dus een xeon met een server moederbord. Dat is altijd stabieler over tijd en je bent zeker dat de sensordata correct is. Maar het geen must indien een paar bitflips niet erg zijn.

[ Voor 136% gewijzigd door Coolstart op 17-09-2017 09:59 ]

zondag 17 september 2017 10:49

Acties:

Woutepout

Topicstarter

Dank je wel voor je bijdrage!

DaniëlWW2 schreef op zaterdag 16 september 2017 @ 16:48:
Kan je geen contact opnemen met die mensen in Zwitserland voor wat beter advies? Dit is namelijk wel even andere koek dan een servertje dat aardig moet draaien. Kernfusieonderzoek nog wel, dat is een totaal ander niveau. Je gaat dan ook met speciale software werken, kennelijk buiten standaard software platformen. Kennelijk allemaal speciale software is, onderhouden door een speciaal team ICT team, en dan krijg jij even het verzoek het uit te zoeken.

Ik heb goed contact met Zwitserland, krijg volgende week ook de complete parts list van de vorige systemen. Het punt is dat mijn instituut het meetsysteem gaat aanschaffen, bouwen, testen, installeren bij het Zwitserse instituut, en beheren. Dat is tot nu toe nog niet gedaan door externe partijen. Ik wil dus hier alvast de cameras, computer, bekabeling, etc, gaan testen voordat het daar naartoe gaat. En het laatste systeem dat ze daar op deze manier hebben gebouwd is alweer 1-2 jaar geleden. Mijn toepassing stelt nog zwaardere eisen aan de computer en is daardoor van de allernieuwste componenten afhankelijk. Mijn collega's daar kennen niet alle ins en outs van de nieuwe producten die dit jaar zijn uitgekomen. Ze zouden me wel daarbij kunnen helpen, maar ik wilde kijken of ik alvast een goed uitgangssysteem kan samenstellen zodat we daar in detail over kunnen praten. Daarom hoopte ik ook wat van de hier aanwezige expertise te kunnen gebruiken, al was het maar om zelf meer te leren. En ter verduidelijking: ik heb zelf het initiatief hier genomen, ze hebben me niet een verzoek gestuurd. Ik heb er een belang bij om dit zo snel mogelijk op te tuigen en heb er meer tijd aan te besteden dan mijn collega's in Zwitserland.

In ieder geval heb je hiervoor wel ECC RAM nodig, dat is hier absoluut geen overbodige luxe. Die setjes komen alleen met een maximale snelheid van 2667MHz. Dan lijkt de 1950X de betere keuze te zijn, want die CPU is sneller dan de 7900X in de meeste taken. De belangrijkste vraag hier is denk ik of een Vega 10 kaart zal werken, vanuit de kant van softwarematige ondersteuning. Dat is nogal een puntje als je op dit niveau van computer hardware gaat werken. Ik snap eigenlijk ook helemaal niet waarom jij met dit probleem wordt opgezadeld.

Ik ben het met je eens dat ECC RAM waarschijnlijk een goed idee is, maar ik heb ook zeer grote bandbreedte nodig. Een van mijn vragen is wat het snelste ECC RAM is, en wat dat voor implicaties heeft voor de keuze van andere componenten.

Ik ben ook erg geïntrigeerd door Threadripper, vanwege de 64 PCIe lanes, ECC ondersteuning, veel cores, goede snelheid en lage prijs. Bij TCV hebben ze in de afgelopen jaren alleen Intel CPUs gebruikt omdat die sneller waren, en vooral omdat de Intel C compiler veel efficiëntere code produceerde. Een groot deel v/d real-time code wordt automatisch naar C vertaald vanuit Matlab/Simulink, dus het is niet altijd mogelijk om de code zelf super te optimaliseren. Een goede compiler is daarom een groot voordeel. AMD heeft nu net AOCC uitgebracht om beter te optimaliseren, maar ik heb nog weinig kunnen vinden hoe die zich verhoudt tot ICC. ICC staat erom bekend om slecht geoptimaliseerde code voor AMD te produceren, maar het schijnt het mogelijk te zijn om dit te verbeteren door allerlei compiler flags individueel te zetten om de x86 extensies van AMD goed in te zetten. We hebben daar geen ervaring mee, dus als iemand dat wel heeft, zou het erg fijn zijn daar iets over te delen.

zondag 17 september 2017 11:59

Acties:

Woutepout

Topicstarter

CMD-Snake schreef op zaterdag 16 september 2017 @ 18:01:
[...]

Ik ben zelf systeembeheerder. Voor 'mission critical' spul koop je alleen bij de grote OEMs hardware. Het gaat dan vooral om de garanties die afgegeven worden op dergelijke systemen.

[...]

Dell en HP kunnen indien nodig binnen 4 uur (na de melding) een monteur bij jou op de stoep hebben staan. Je moet dan alleen een luxer support contract afsluiten. Dat heb ik al regelmatig meegemaakt dat we zo dezelfde dag nog de nieuwe onderdelen op de zaak hadden liggen. Op belangrijke systemen kan je zelfs afspreken dat ze in het weekend nog komen of op feestdagen. Het is een kwestie van geld dan.

Het nadeel van een trip naar de computerwinkel is dat deze mogelijk gesloten is of het onderdeel niet (meer) heeft. Je hebt met die defecte server mazzel gehad. Dat had namelijk veel erger kunnen aflopen. Stel nu dat die server op leeftijd was en onderdelen niet zo eenvoudig meer aan te komen waren?

Ik zou iets als deze bestellen: http://store.hp.com/Nethe...d=T4K64ET&opt=ABB&sel=WKS

Je moet alleen nog een videokaart kiezen. Maar de 14c/28t die je standaard krijgt samen met 32GB ECC DDR4 ben je al een aardig eind onderweg. Deze workstations zijn ook gecertificeerd voor Windows en Linux. Voor Ubuntu, Red Hat/CentOS en SUSE levert HP alle drivers mee. Erg handig indien je Linux draait.

[...]

Er is niets vooringenomen aan de stelling zelfbouw = hobby-bob. Dat is het gewoon. Voor thuis is het leuk of als je student bent, maar jij bent beroepsmatig bezig. Dat vereist een andere aanpak. Eerdere vraag heb je ook niet beantwoord, wat is de schade die je oploopt als je systeem meer dan een dag plat ligt?

Je huidige moederbord kan zo te zien niet werken met ECC RAM. Lijkt mij wel zo wenselijk voor je onderzoek. Een bit flip kan misschien je hele experiment ongeldig maken of een berekening verpesten. Bij onderzoek naar kernfusie telt elk getal en de correctheid van de berekening.

Bedenk ook hoe je om moet gaan met garanties. Als je iets in Nederland koopt bij Azerty en het gaat in Zwitserland stuk, dan zal je langs Azerty in Nederland moeten gaan voor je garantie.

Ik snap wat je zegt, en dat je dit advies geeft gegeven je achtergrond. Tegelijkertijd is het niet zo dat er veel geld verloren gaat als dit systeem even stil ligt (het server-voorbeeld is wat anders, maar dat was niet mijn project). Het is een onderzoeksinstituut waar nieuwe technologie wordt ontwikkeld, niet een bedrijf waar productie wordt gedraaid. Het kost meestal een hoop tijd om dit soort nieuwe technologieën überhaupt werkend te krijgen. Daarna worden er continu nieuwe dingen mee geprobeerd, aanpassingen gedaan, etc.

Natuurlijk willen we dat de wetenschappelijke data klopt en ik zou ook liever ECC geheugen hebben, maar als je bedenkt dat het systeem max 20 sec van de 3600 seconden in een uur acquisitie doet en het overgrote deel v/d data beelden zijn (waarbij het niet kloppen van een enkele pixel-waarde geen ramp is), dan is het risico van een paar bit flips niet al te groot.

Het voorgestelde workstation ziet er op zich goed uit, maar ik heb wel wat vragen: wat is de geheugen bandbreedte? Betaal je ook sowieso voor al die software die we niet nodig hebben? Hoe handig is het om een tower in een 19" rack te plaatsen (kan volgens brochure)? Zijn ze evt. te overklokken? Hoe is de architectuur van het moederbord, welke PCIe slots zijn aangesloten op de CPU en welke op de chipset?

zondag 17 september 2017 12:08

Acties:

Woutepout

Topicstarter

Coolstart schreef op zondag 17 september 2017 @ 02:12:
(edit: zware edit ;-)
Als ik het goed begrijp komt er om de 15 min een burst van data binnen binnen van 4seconden via de PCIE-host extender. Op die real-time data worden in diezelfde 4 seconden algoritmes gedraaid.

Zoals je zelf aan aangeeft kan je al dit veel beter uitvoeren in het ram van uw grafische kaart. Dit biedt veel voordelen omdat je alles parallel kan draaien op duizenden gpu-cores en uw 'trage' cpu wordt ontlast. Ik snap dat je alles 1 systeem wil draaien maar alles wijst er op dat je zal doorgroeien in een GPU-intensieve omgeving met een focus op parallelisering. Uw cpu is dan niet meer dan een data manager en doet zelf niet aan analyse of manipulatie van gegevens.

Ofwel steek je die Gpu's op 1 moederbord ofwel ga je kijken naar E gpu's. Als dat het geval is zou ik eens gaan kijken naar de setup van bitcoin miners. Daar is efficiëntie en scaling key.

Als het systeem schaalbaar moet zijn zou ik alles opdelen in 2 taken/systemen.
1. Data burst opvangen en in zijn geheel veilig webschrijven (CPU-intensief)
2. Data burst realtime analyseren en de gereduceerde output veilig wegschrijven (GPU-intensief)
Als je die twee taken opdeelt denk ik dat je later de NVIDIA GPUDirect makkelijker kan implementeren. Mss kan je beter starten met het bouwen van 2 systemen. 1 om de data te capteren en een ander systeem om de data te anlyseren. Dan zou je de ruwe output van de sensor data moeten splitsen in twee en zo 2X tegelijk laten toekomen. (net zoals een hdmi-splitter werkt)

Ze bouw je ook redundancy in. Ook al loopt uw algoritme spaak, dan heb je toch nog uw data en andersom. Je kan ook makkelijker schalen en het geheel is stabieler.

Capteren van data is relatief simpel. Eens het systeem draait zal het hoogst waarschijnlijk stabiel blijven, je kan het wegzetten en lange tijd met rust laten.

Het systeem waar de algoritmes op draaien is complexer en zal waarschijnlijk meer updates krijgen en meer aanpassingen moeten verdragen, de kans dat er iets misloopt is veel groter. Als uw ram plots vol loopt door een bug crahsed alles in no time.

Ook dit issue los je op:
"Deze data moet met minimale latency in het geheugen terechtkomen, zodat er genoeg tijd over is tussen twee opeenvolgende frames om de beeldanalyse algoritmen te laten uitvoeren."

Je moet dan wel de data kunnen splitsen. In dit geval lijkt het rechstreeks via pci-e binnen te komen. Ik weet niet er een 38pin cable splitter bestaat maar in het ergste geval kan je die nog zelf maken met wat soldeerwerk. Als die twee systemen naast elkaar in een rack staan is dat handiger.

Wat de GPU betreft (en deep learning in mind) zou ik voor een Nvidia 1080ti gaan. (Veel goedkoper en sneller dan die quadro) Die heeft 10tflops+ 380Gb/s bandbreedte en dat met een tdp van 250watt en een grote CUDA community wat deep learning in C betreft. Amd en Intel zijn minder interessant. (Bron) Je kan later nog uitbreiden naar een multi-gpu setup.

Deep learning vraag wel wat experimenteren met uw code. Reden te meer om voor een 2-systeem oplossing te gaan. Een dual gpu-oplossing kan ook, niet om dingen parallel te draaien (complexer!) maar voor praktische redenen. Zo kan je makkelijker experimenteren welke code de beste resultaten oplevert.

Ik zou wel een systeem kiezen met ECC. Dus een xeon met een server moederbord. Dat is altijd stabieler over tijd en je bent zeker dat de sensordata correct is. Maar het geen must indien een paar bitflips niet erg zijn.

Een van de eerste vragen die ik aan de camera fabrikant heb gevraagd is of de video streams gedupliceerd kunnen worden. Omdat PCIe een point-to-point communicatie is, is dit niet mogelijk. Voor nu denk ik dat het het eenvoudigste en snelste is om het bij een systeem te houden. Het is niet extra moeilijk om de data die binnenkomt in het RAM te houden terwijl de algoritmen draaien.

Dank voor het interessante artikel over GPU's, erg nuttig! De reden dat ik de Quadro P5000 noemde was dat ik misschien gratis kan krijgen. Als dat niet lukt, ga ik idd waarschijnlijk voor een 1080.

zondag 17 september 2017 12:09

Acties:

DaniëlWW2

Moderator General Chat

Dyslectic history cynic

Ik zou dit soort berekening laten doen door een GPU. Een GPU is botweg veel sneller in dit soort parallelle berekeningen dan welke CPU dan ook. Qua berekeningen, tja C ondersteuning lijkt me toch wel een zeer basaal gegeven, wat beide GPU "kampen" kunnen. Ja het zijn echt kampen soms, inclusief loopgraven, fanboyisme etc. Precies hetzelfde voor Intel vs AMD.

Qua systeem. Waarom leg je niet zowel een Intel als AMD systeem voor, en zowel AMD als Nvidia GPU's? CPU is makkelijk, namelijk 1950X en de 7900. Qua ECC geheugen kwam ik er net wel achter dat niet elk moederbord voor Threadripper dat ondersteunt, de uitzondering was de Asus Prime X3990-A. Waarom snap ik echt niet...

Qua GPU heb je het over P5000 en P4000. Dat zijn de logische keuzes omdat Nvidia zo lang dominant is geweest in deze markt. Dat komt puur door CUDA als platform. Met ROCm heeft AMD dit aardig open gebroken. Aan de AMD kant kan je gaan kijken naar WX 7100 of WX 9100. Stiekem zijn de AMD GPU's ook meer ontworpen voor HPC taken dan de meeste Nvidia kaarten. P5000 en P4000 zijn GV104 chips, eigenlijk primair bedoeld voor gaming. WX 9100 is een Vega 10 chip die zeer gefocust is qua achitectuur op HPC taken. WX7100 is een Polaris 10 chip, die wederom meer naar HPC taken dan naar gaming neigt.

De AMD kaarten zijn een stuk goedkoper omdat AMD die markt goed op wil komen. Dat proberen ze nu al jaren, maar ze hadden nooit hun eigen software platform ter ondersteuning. Nu dus wel. Je krijgt dus heel wat waar voor je geld. WX 9100 is alleen nog wel lastig te krijgen in Nederland. Dit is de enige die ik tot dusver heb kunnen vinden.
https://www.centralpoint....t-100-505957-num-7720615/

Wat ook nog bestaat is Vega FE. Exact dezelfde chip, maar dan zonder de HPC certificering/ondersteuning, en met de 16GB HBM2 RAM.
product: AMD Radeon Vega Frontier Edition

Dan alle opties:
categorie: Videokaarten

Meer kan ik je helaas niet helpen. Ik zit weliswaar in een heel andere tak van wetenschap, de geschiedwetenschap, maar ik begrijp zeker dat een dergelijk systeem gewoon moet werken, en belangrijker nog, niet ergens een bottleneck moet gaan vormen, of verkeerde data moet gaan genereren.

Never argue with an idiot. He will drag you down to his own level and beat you with experience.

zondag 17 september 2017 12:12

Acties:

CMD-Snake

Woutepout schreef op zondag 17 september 2017 @ 10:49:
Ik ben het met je eens dat ECC RAM waarschijnlijk een goed idee is, maar ik heb ook zeer grote bandbreedte nodig. Een van mijn vragen is wat het snelste ECC RAM is, en wat dat voor implicaties heeft voor de keuze van andere componenten.

Een paar posts hierboven had Daniël dat al geschreven, snelste ECC geheugen is 2667MHz. Dat kan je eventueel bij Threadripper gebruiken. Intel gebruikt altijd wat trager geheugen. AMD CPU's zijn erg afhankelijk van de geheugensnelheid omdat de communicatie tussen de processor complexen daarop gebaseerd is. Intel heeft hier geen last van.

Woutepout schreef op zondag 17 september 2017 @ 11:59:
Ik snap wat je zegt, en dat je dit advies geeft gegeven je achtergrond. Tegelijkertijd is het niet zo dat er veel geld verloren gaat als dit systeem even stil ligt (het server-voorbeeld is wat anders, maar dat was niet mijn project). Het is een onderzoeksinstituut waar nieuwe technologie wordt ontwikkeld, niet een bedrijf waar productie wordt gedraaid.

Maar die dingen die jij noemt hebben ook waarde. Die is dan niet direct in geld uit te drukken, maar ook iemand betaald zodat jullie kunnen experimenteren en deze dingen kunnen kopen. Als er iets misgaat loop je ook "schade" op.

Natuurlijk willen we dat de wetenschappelijke data klopt en ik zou ook liever ECC geheugen hebben, maar als je bedenkt dat het systeem max 20 sec van de 3600 seconden in een uur acquisitie doet en het overgrote deel v/d data beelden zijn (waarbij het niet kloppen van een enkele pixel-waarde geen ramp is), dan is het risico van een paar bit flips niet al te groot.

Bit flips kunnen heel wisselend uitpakken. Soms is het onschuldig, gebeurt er bijna niets. Ergste geval is een crash van de machine. In dat geval is je data dus weg mogelijk.

Het voorgestelde workstation ziet er op zich goed uit, maar ik heb wel wat vragen: wat is de geheugen bandbreedte? Betaal je ook sowieso voor al die software die we niet nodig hebben? Hoe handig is het om een tower in een 19" rack te plaatsen (kan volgens brochure)? Zijn ze evt. te overklokken? Hoe is de architectuur van het moederbord, welke PCIe slots zijn aangesloten op de CPU en welke op de chipset?

Enige software die je krijgt op deze workstation is Windows 7. Je kan vragen om daar je geld voor terug te krijgen, dat bespaart je 50 euro ongeveer.... Op de site van HP kan je de Linux drivers vinden, voor Scientific Linux moet je die voor RHEL/CentOS nemen. Daar is Scientific Linux van afgeleid.

De specs staan op die pagina. Je kan ook de technische brochure van HP vinden, al die vragen die je stelt worden daarmee beantwoord: http://www8.hp.com/h20195/v2/GetPDF.aspx/c04400043.pdf

Deze tower kan op zijn zijkant in het rack gehangen worden. Je moet dan los bij HP nog de rails bestellen. (onderdeelnummer: B8S55AA) De Z stations zijn namelijk 1U hoog als ze op hun zijkant liggen.

Ik ben ook erg geïntrigeerd door Threadripper, vanwege de 64 PCIe lanes, ECC ondersteuning, veel cores, goede snelheid en lage prijs. Bij TCV hebben ze in de afgelopen jaren alleen Intel CPUs gebruikt omdat die sneller waren, en vooral omdat de Intel C compiler veel efficiëntere code produceerde. Een groot deel v/d real-time code wordt automatisch naar C vertaald vanuit Matlab/Simulink, dus het is niet altijd mogelijk om de code zelf super te optimaliseren. Een goede compiler is daarom een groot voordeel. AMD heeft nu net AOCC uitgebracht om beter te optimaliseren, maar ik heb nog weinig kunnen vinden hoe die zich verhoudt tot ICC. ICC staat erom bekend om slecht geoptimaliseerde code voor AMD te produceren, maar het schijnt het mogelijk te zijn om dit te verbeteren door allerlei compiler flags individueel te zetten om de x86 extensies van AMD goed in te zetten. We hebben daar geen ervaring mee, dus als iemand dat wel heeft, zou het erg fijn zijn daar iets over te delen.

Soms is het nieuwste, niet het beste wat je kan kopen.

Je schrijft dat je Scientific Linux gebruikt. Welke versie? Versie 5 en 6 zijn op basis van de RHEL 5 en 6 kernel, welke al oud aan het worden is. Deze zal ook meer moeite hebben om meteen goed te werken met gloednieuwe hardware. Ik weet uit ervaring dat Scientific Linux niet heel snel is met nieuwe zaken geïmplementeerd krijgen. Soms lopen ze behoorlijk achter op Red Hat die als basis dient.

Kan je ook voor alle hardware goede Linux drivers al vinden? Je wil niet een halfbakken driver hebben waardoor de machine tijdens een experiment een kernel panic krijgt. Weg Nobel prijs. Bij HP krijg je werkende drivers aangeboden.

Indien je software een voorkeur heeft voor Intel is het misschien handiger om bij Intel te blijven. En dan zou ik zelfs kiezen voor Broadwell-EP. Dit is wel een generatie onder Skylake-X, maar het platform is helemaal uitontwikkeld. Je weet dus dat er geen verrassingen meer inzitten.

zondag 17 september 2017 13:47

Acties:

Coolstart

Woutepout schreef op zondag 17 september 2017 @ 12:08:
[...]

Een van de eerste vragen die ik aan de camera fabrikant heb gevraagd is of de video streams gedupliceerd kunnen worden. Omdat PCIe een point-to-point communicatie is, is dit niet mogelijk. Voor nu denk ik dat het het eenvoudigste en snelste is om het bij een systeem te houden. Het is niet extra moeilijk om de data die binnenkomt in het RAM te houden terwijl de algoritmen draaien.

Dank voor het interessante artikel over GPU's, erg nuttig! De reden dat ik de Quadro P5000 noemde was dat ik misschien gratis kan krijgen. Als dat niet lukt, ga ik idd waarschijnlijk voor een 1080.

Net ondat het point to point is gaat het wel terwijl pci dat moeilijker was. Pci-e is dedicated dus je kan perfect data aftappen omdat je 100% zeker bent dat de data juist is.

ik dacht dat er geen dubbele communicatie (dus gewoon pure downstream) plaatsvond tussen de twee devices dus in dat geval kan je gewoon aftappen.

Je zou idd kunnen starten met 1 systeem, zelfs de real time analyse.

Maar als je echt met deep learning bezig bent moet je zoveel experimenteren dat je blij zal zijn dat uw capture systeem niet wordt aangeraakt en dat je rustig met kan rommelen met uw gpu's zonder te vrezen dat de burst data corrupt
Is.

Ik ben wel benieuwd naar uw resultaten. Het voordeel van AMD is dat je veel cores hebt, maak het makkelijker om alles fysiek op te splitsen. Zolang 1core al het nodige werk kan doen binnen die 4seconden is de extra single core speed van intel niet nodig. Maar als je stabiliteit wil zou ik bij de gevestige waarden blijven--> ecc, intel...

Pagina: 1

Reageer