FLOPS specs voor (embedded) processoren - Processors, moederborden en geheugen

dinsdag 5 augustus 2014 20:14

Acties:

Topicstarter

Graag wil ik een ARM Cortex A9, A15 of Intel Atom processor gaan gebruiken voor floating point toepassingen. Het is echter lastig te achterhalen welke FLOPS deze drie processoren kunnen halen. Het gaat me om theoretische processorkracht, los van datatoevoersnelheid etc.

De beste pagina die ik gevonden, is een forum antwoord:

quote: http://stackoverflow.com/...and-haswell-sse2-avx-avx2
ARM Cortex-A9:
1.5 DP FLOPs/cycle: scalar addition + scalar multiplication every other cycle
4 SP FLOPs/cycle: 4-wide NEON addition every other cycle + 4-wide NEON multiplication every other cycle

ARM Cortex-A15:
2 DP FLOPs/cycle: scalar FMA or scalar multiply-add
8 SP FLOPs/cycle: 4-wide NEONv2 FMA or 4-wide NEON multiply-add

Intel Atom (Bonnell/45nm, Saltwell/32nm, Silvermont/22nm):
1.5 DP FLOPs/cycle: scalar SSE2 addition + scalar SSE2 multiplication every other cycle
6 SP FLOPs/cycle: 4-wide SSE addition + 4-wide SSE multiplication every other cycle

Het is enigzins onduidelijk of deze waardes per core zijn. Zeker de Intel is verkrijgbaar in diverse varianten. Aanname: voor quad-cores doe ik x4.

Daarnaast vond ik een pagina van Anandtech met antwoorden op basis van tests:

quote: http://www.anandtech.com/...-of-modern-arm-processors
Cortex A9:
0.5 voor DP / NEON
1 voor SP

Cortex A15:
1 voor DP
1 voor SP

Maar deze waarden kloppen niet met wat er bij Stackoverflow gezegd werd. Wat is nu waar?
Op een of andere manier kan ik geen officiele data hierover vinden. Intel geeft geen FLOPS in de specs en ook nVidia/Freescale/etc niet voor hun ARM processoren. Weet iemand wat de FLOPS zijn voor deze processoren - en heeft daar enige onderbouwing van?

woensdag 6 augustus 2014 09:16

Acties:

dion_b

Moderator Harde Waren

say Baah

Theoretische waardes zijn leuk, maar gezien de complexiteit van moderne CPUs (met name als het gaat om dingen als branch prediction en hyperthreading, maar ook multi-level caches en thermal throttling per core) zegt het niet zoveel over wat je kunt verwachten.

Je hebt het hier over drie low-cost mogelijkheden. Is het niet makkelijker en een stuk betrouwbaarder om gewoon van elk eentje te regelen en dan proefondervindelijk de performance te bepalen?

Oslik blyat! Oslik!

woensdag 6 augustus 2014 19:49

Acties:

Snufkin

Topicstarter

Dankjewel voor je antwoord. Het is helemaal waar, en het is beter en leuker om zelf testjes te draaien.

Het ging om een indicatie, en ik heb daarvoor uiteindelijk Geekbench resultaten gebruikt: www.primatelabs.com