Oke, ik ben de tijd vergeten, minder gamen met mijn RX7900XT vanavond.

Ik heb die al een tijd geleden gelezen.
Maar ik doel op iets anders. Een RX7900XTX met 6144 ALU's (die tweede 6144 ALU's doen niet zoveel) kan een RTX4080 met 9728 ALU's bijhouden. Het verschil in occupency is enorm, zeker omdat die RTX4080 ook nog eens hogere clock speeds heeft. Dat kan alleen maar als AMD veel beter in staat is om haar GPU aan het werk te houden dan Nvidia.
Nu bestaat 100% occupency eigenlijk niet met videokaarten. Er zullen elke clock cycle wel ALU's zijn die geen rekenopdracht hebben. Maar het moge duidelijk zijn dat AMD dat een flink stuk beter doet dan Nvidia. Mijn gedachte daarbij is ook dat als je consistenter je hardware aan het werk houdt, dit ook wel eens mede kan verklaren waarom je betere frametimes behaald. Maar dit echt goed beantwoorden is lastig.
Overigens maakt dit ook mede de problemen van Intel duidelijk. De A770 heeft net zoals Turing een SIMD32 met 16x FP en 16x INT en daarnaast hun XMX matrix engine. Vervolgens heeft Intel twee SIMD32 + XMX engines aan elkaar verbonden. Ik vermoed dat het daar al misgaat voor Intel. Ik denk namelijk dat Intel het niet voor elkaar krijgt om deze grote en complexe Xe cores aan het werk te zetten en te houden. Om hier namelijk goede occupency te krijgen, moeten ze elke cycle, 16x FP en 16x INT instructies zien te groeperen en naar de executie units zien te krijgen. Nvidia kreeg dat voor elkaar met Turing, maar stapte er met Ampere eigenlijk alweer vanaf. Ik vraag me hardop af of dat niet voor Intel ook de oplossing kan zijn? Maar misschien is de beste oplossing voor Intel eens heel goed naar RDNA kijken en het bij een simpelere SIMD32 houden waarbij dezelfde ALU's zowel FP als INT doen.
Hun XMX engine is nu ik nog eens kijk, ook niet gelijkwaardig aan wat RDNA3 heeft. RDNA3 doet namelijk 256Ops/clock voor FP16, BF16, INT8 en INT4. Intel heeft andere waarden. Maar Intel kan wel parallel hun XMX engines gebruiken aan hun shaders, AMD niet en Nvidia kan ook niet een instructie issuen aan hun shaders alsmede tensor cores. Dat is altijd een pick one situatie.
Qua RT heeft Intel denk ik een middenpositie tussen Nvidia en AMD. Intel haar aanpak staat een serieus goede hoeveelheid ray/box intersections toe, maar niet veel ray/triangle. AMD doet hier 4/1. Nvidia is altijd vaag geweest, maar het lijkt voor Turing 1/1, Ampere 2/2 en Ada 4/4 te zijn. Ik weet in ieder geval vrij zeker dat die ray/triangles zo zijn. Ray/box intersection heeft Nvidia volgens mij officieel nooit medegedeeld.
Vervolgens heeft Intel hun RT implementatie grotendeels losgekoppeld van hun shaders. Verder hebben ze meteen sorteringhardware aangebracht. Nvidia heeft dat nu ook met Ada, maar alleen als je het op software niveau implementeert. Dus alleen Cyberpunk heeft het want verkapte Nvidia tech demo.

Verder heeft Intel maar 32 van deze RT units op A770. Zwak lijken die niet te zijn.
Kwam per toeval dit ook nog tegen wat mijn vermoedens bevestigd. AMD lijkt inderdaad heel erg veel BvH stappen te doen om minder ray/box en ray/triangle intersection tests uit te voeren. Het betekent wel dat ze hun RT veel meer serieel moeten doen en voor elke stap ook ergens de data moeten opslaan. Dat is ook waarom RDNA3 een forse verbetering in RT heeft. Grotere en sneller toegankelijke caches alsmede verbetering in hun BvH creatie. Het is zoals altijd met RDNA, culling en optimaliseren van hardware.
Nvidia doet bijna het tegenovergestelde. Nvidia heeft juist veel shaders, veel SM's en speelt daar op in. Het lijkt erop dat Nvidia de top level acceleration structure (TLAS) in een paar cycles afhandelt met RT en meteen doorgaat naar veel grotere bottom level acceleration structures (BLAS). En daar gaan ze ray/box en voornamelijk ray/triangle intersections uitvoeren. Vele intersections, veel veel meer dan AMD zal doen. Daar is ook wel een reden voor. Een dergelijke instructie is niet gedaan in een cycle. Wat Nvidia kan doen is een dergelijke instructie aan hun RT core toewijzen en vervolgens weer verdergaan met instructies aan de SM's toewijzen. Af en toe denoisen met de tensor cores en weer door.
Dit is overigens ook waarom Nvidia het over path tracing ging hebben. Veel meer ray/triangle intersections, veel minder BvH. Ada ziet er goed uit, in het bijzonder de RTX4090 die echt los kan gaan, de rest niet. Idem waarom er voor Witcher 3 en Cyberpunk mods zijn die ray/triangle intersections drastisch verlagen voor minimaal grafisch verlies, met voornamelijk enorme prestatiewinsten voor AMD. En dit is waarschijnlijk ook waarom de eerste UE5 Lumen games vooralsnog de indruk wekken dat een RTX4080 daar niet veel sneller in RT is dan een RX7900XTX, idem voor de RX4070Ti en de RX7900XT.
Kijk alleen al naar het verschil en hoeveel complexer BvH structuren voor AMD zijn. Dat is bewust omdat AMD net zoals Nvidia, inspeelt op haar sterke. RDNA is toch al een beetje een onconventionele GPU architectuur omdat er best wat "CPU" dingen in zitten. L1-2-3 cache, erg flexibele en capabele ALU's, doet meer dingen in serie dan parallel met minder ALU's etc. Het is ook geen geheim dat een aantal belangrijke mensen van het Zen 1 team, op RDNA zijn gezet.
En Nvidia houd het een stuk simpeler, maar loopt veel meer intersections te testen.
@
Werelds Ik denk dat jij dat artikel ook wel leuk vind als je tijd hebt.
https://chipsandcheese.co...vidias-turing-and-pascal/
Intel is helaas niet getest, maar ik vermoed dat ze een middenpositie aannemen. Ze kunnen die extreem diep BvH structuren van AMD niet aan en de enorme ray/triangle intersection tests van Nvidia ook niet. Dus lijkt het erop dat ze een beetje van beiden doen. Intel heeft haar BvH hardware niet zomaar haar eigen cache gegeven. Hun BvH structuur zal ook complexer zijn dan wat Nvidia doet en dat proberen ze zoveel mogelijk lokaal op te slaan zoals AMD ook probeert. Maar ze kunnen veel meer ray/box intersections dan AMD doen, dus hoeven ze ook niet zo enorm ver te gaan als wat AMD heeft gedaan.
Ik vermoed dat zowel AMD als Intel een vrij gemakkelijke "performance fix" kunnen implementeren in de toekomst. Botweg meer ray/triangle intersections. Al gaan ze van 1 naar 2, het is een verdubbeling. Met name voor AMD zou dat wel eens heel wat kunnen opleveren. Qua Intel denk ik dat hun fundament niet zo slecht is. Zeker voor een eerste generatie is dit echt wel beter dan Turing of RDNA2. Het is denk ik ook een van de beste stukken van Arc.
Mij bekruipt de twijfel of het nu werkelijk geannuleerd is.
Zou er niet een mogelijkheid kunnen zijn dat AMD besloten heeft alleen de professionele markt te bedienen en mee te gaan met de AI hype? Aangezien het MCM ontwerp meer geschikt lijkt te zijn voor workloads?
Ik vermoed eerder dat een annulering met kosten en marktpositie te maken heeft. N41 zou van wat nu gelekt is, een absoluut monster zijn. Je gaat anders niet negen aparte, vermoedelijk Shader Engine chiplets 3D stacken op een actieve interposer. Zeker omdat ik niet verbaast zou zijn als die interposer chiplets, L3 cache alsmede de geheugencontrollers zouden bevatten.
Verder heeft zo ongeveer elke RDNA chip een Shader Array diepte van 8-10CU's gehad en twee array's vormen een engine. Reken maar uit, dat was waarschijnlijk een 144CU GPU. Immers 8CU x 2 arrays x 9 chiplets. Vervolgens de vraag of RDNA4 wel clock speed targets haalt. In ieder geval, die chip zou zeker 50% sneller moeten zijn dan N31. Maar ik vermoed ook dat die duurder dan N31 zou zijn om te maken. En wie gaat dat kopen?
[...]
Persoonlijk wil ik Intel daarom wel een kans geven. Wanneer ze alles open houden kan dat nog best leuk worden voor de DIY / tweaker community.
Het lijkt er wel een beetje op dat Intel daar een band mee probeert te vormen door de presentmon tool beschikbaar te maken. Van deze achterhoede moet je het eigenlijk ook hebben om anderen over te halen (Jan alleman die normaal gesproken alleen Nvidia koopt, omdat deze de rest niet vertrouwd).
Ik op termijn misschien ook wel. Maar het is Intel. Niet bepaald een bedrijf dat liefdadigheid nodig heeft.
Intel moet gaan presteren. En ideaal gezien schopt Intel, AMD dan ook wakker in dat de rest van de videokaarten markt niet gegarandeerd voor hun is. Want daar mogen ze er ook wat voor gaan doen.
Never argue with an idiot. He will drag you down to his own level and beat you with experience.