Dus native raster zou net zo snel kunnen zijn als upscaled raster, tenminste wanneer het om RT games gaat (immers RT is dan de bottleneck)? Eens dat baked lighting vaak heel goed kan zijn, maar dat komt ook omdat de meeste RT implementaties niet volledig zijn (global illumination benadering, geen path tracing of oneindig aantal lichtbronnen, etc.).
Werelds schreef op donderdag 9 oktober 2025 @ 11:50:
Ja, dat is wat mist en nee, dat is niet hoe Nvidia het aan pakt. Nvidia's aanpak is vooral meer RT cores er tegenaan gooien zodat ze meer hits kunnen testen, maar daar is het bij gebleven. De enige daadwerkelijke verbetering die er sinds de Turing release in zit is SER, maar dat is een opt-in shader en is vooral een optimalisatie voor scheduling. Werkt ook niet op alle GPU's, als er niet genoeg L2$ beschikbaar is (ten opzichte van het aantal SM's en dus RT cores - ironisch genoeg de 4090 bijvoorbeeld) heeft het geen effect - het kan zelfs nadelig werken en stalls veroorzaken. Ik heb daar een tijd geleden al eens iets over gepost.
Ik neem dat je Shader Execution Reordering bedoelt, dat klinkt in de buurt van coherency sorting, maar net niet, vandaar de level "3,5" waarschijnlijk. Eens dat verbeteringen in cache en register geheugen wel dichter bij level 4 en 5 kunnen komen, omdat elke ray tracing geometrie / game scene weer net even anders is, anders gezegd ik zou niet weten hoe een hardware "Full Coherency Sorting" of "Scene Hierarchy Generator" er uit zou moeten zien, want elke willekeurige verzameling rays in een game scene is denk ik te verschillend.
Werelds schreef op donderdag 9 oktober 2025 @ 11:50:
AMD is sowieso al flexibeler qua scheduling en hun optimalisaties zijn vooral op geheugen (cache, niet VRAM) gebruik gericht geweest, naast meer hits/clock te kunnen doen.
Wat AMD gaat doen weet ik niet, wel durf ik te stellen dat zij in de beste positie zitten om uit te breiden. Qua raster prestaties zijn we al lang voorbij waar meer units iets doet. Dat heb ik ook al vaak zat gezegd, de sweet spot lijkt voor beide tussen de 60 en 80 CU's/SM's te liggen op dat vlak, en rasterisation gaat altijd nodig zijn. Door AMD's architectuur kunnen zij eenvoudiger het huidige ontwerp nemen en dingen toevoegen, omdat ze data beter rond kunnen pompen. Omdat we nog steeds op Turing+ zitten bij Nvidia, moeten zij een veel grotere wijziging doorvoeren. Vergeet niet dat RT alsnog pixel shaders vereist (hits testen is leuk en aardig, maar een pixel moet toch nog een kleurtje krijgen), dus door de manier waarop hun SM's in elkaar steken en hoe hun geheugen hiërarchie werkt zijn ze heel erg beperkt. RT is veel meer een big-picture dingetje dan raster is.
Aan de top wel ja, ga je bijvoorbeeld in Battlefield 6 van een 5080 naar een 5090, met meer dan dubbel zoveel motortjes (SM 80 -> 176) gaat de fps op 4k overkill van 70 naar maar 115 fps.
Maar de andere kant op merk je het verschil in motortjes wel, neem je de 5060 Ti met 38 SM motortjes (ietsje minder dan de helft), dan halveert je fps ook gewoon naar 35 fps, bij dezelfde settings, t.o.v. de 5080.
Goed om te horen dat AMD's investeringen in de gedeelde cache voor WGP's, unified register / instruction cache, en infinity cache een mogelijk voordeel gaan geven voor Ray Tracing, ze kunnen het goed gebruiken met hun naar verluid 6% markt aandeel in nieuwe dGPU shipments (Jon Peddie Research).
Werelds schreef op donderdag 9 oktober 2025 @ 11:50:
Ze hebben die whitepaper al een paar keer geüpdated, we zitten nu op 3.5: thread coherency sorting, maar dat is gelokaliseerde coherency. Maar dat deed Turing al. SER werkt op Turing ook, heeft enkel geen impact door een gebrek aan cache. Alle generaties er na hebben opt-in optimalisaties toegevoegd, maar geen hardware capabiliteiten. Zelfde geldt voor AMD. We zitten al 7 jaar op level 3, 3.5 komt nu mondjesmaat door omdat het een opt-in dingetje is.
Ik zie het inderdaad, ze hebben level 3, 4 en 5 gewijzigd:
Level 3 – Bounding Volume Hierarchy (BVH) Processing in Hardware
->
Level 3 – BVH traversal
Level 3,5 – BVH traversal and thread coherency sorting
Level 4 – BVH Processing with Coherency Sorting in Hardware
->
Level 4 – BVH traversal with full coherency sorting
Level 5 – Coherent BVH Processing with Scene Hierarchy Generator in Hardware
->
Level 5 – BVH traversal, BVH builder and full coherency sorting
Dat is al wat concreter dan Scene Hierarchy Generator
Toch geven ze van level 4 en 5 geen RL Data Flow diagrammen, waarschijnlijk het geheim van de smid en als je hun product koopt, krijg je dat "ingebakken" mee.
Je zou nog kunnen zeggen dat "Mega Geometry" in Blackwell en Nanite in UE5 pogingen zijn tot een BVH builder, zij het softwarematig. RDNA 4 met zijn "Oriented Bounding Boxes" en de kleinere footprint van BVH, verbetert de BVH wel, maar is daar nog geen poging toe. Maar ik geloof dat ze wel iets vergelijkbaars proberen met een Dense Geometry Format (DGF).
Full coherency sorting hebben ze nog geen van allen.