sunsmountain schreef op woensdag 12 april 2023 @ 14:06:
Ik denk dat Intel en AMD ook hardware hebben toegevoegd:
https://gathering.tweakers.net/forum/view_message/74883896- AMD = 1 shader core + 1 Ray Accelerator, per CU
- Intel = 1 shader core + 1 TSU + 1 RTU, per Xe core
- Nvidia = 4 shader + 4 tensor core + 1 RT CORE, per SM
Ja, Nvidia heeft veel meer tensor cores, maar qua RT cores zitten ze op 128 met de RTX 4090, vs 96 RT cores voor RX 7900 XTX, vs 32 RT cores voor A770. Waardoor liggen ze dan "ontiegelijk ver voor"? Of heb je het over andere hardware verbeteringen, wederom zit AMD RDNA3 niet stil:
[
Afbeelding]
Het zal vast minder goed zijn dan Nvidia's Lovelace, maar dan nog:
[
Afbeelding]
Ik weet wat voor RT hardware ze allemaal hebben. Dit heb ik maanden geleden, eindeloos lang besproken.
Nota bene lijk ik zelfs goed gegokt te hebben wat ze voor RDNA3 RT hebben gedaan zonder leaks. Culling, culling en culling om BvH creatie te versnellen en minder rays te hoeven casten. Doet AMD ook altijd, culling hardware implementeren.
Tweede is dat je mijn punt mist. RT is per definitie mixed. Je checkt tegen rasterisation based objects. Daarvoor moet je eerst een BvH opbouwen rond objecten, dan deze objecten checken met rays en omdat een GPU dit absoluut niet gaat trekken in real time, het resultaat opschonen met denoisen. Waar ik op wijs is dat Nvidia een gigantisch voordeel heeft in het ray casting aspect. Daarom zal een RTX4090 werkelijk elke andere GPU afmaken in CGI rendering, uiteraard in het bijzonder het path tracing gedeelte van de render.
Maar zodra je ook BvH en denoising doet, zeker in real time met games, valt een aanzienlijk deel van dat voordeel weg. En ik denk niet dat het probleem in denoising zit. Daar zou Nvidia zeker een voordeel over RDNA2 moeten hebben. RDNA3 is mij niet helemaal duidelijk of AMD al hun eigen matrix units gebruiken voor denoising of dit nog moet komen. Ik denk dat het in BvH generatie + RDNA2/3 haar 4 ray/box per clock vs. 1 ray/triangle clock zit. RDNA2/3 is veel meer geoptimaliseerd om BvH structuren snel af te handelen en minder in ray/triangle tests. Want daarin zou Ada inmiddels 4 per RT core, per clock doen. Dit verschil is er waarschijnlijk mede omdat BvH creatie en verwerking zeer cache intensief is en AMD juist hier hun focus heeft gelegd. Gezien RDNA2/3 hun duidelijk superieure cache hiërarchie, is dit ook niet zo vreemd.
Dit was ook echt geen toeval van AMD.
https://gpuopen.com/radeon-raytracing-analyzer/
Ze willen dat developers inzicht krijgen in wat hun RT implementatie doet en het kunnen optimaliseren, omdat hun implementatie hier de grote winst uit zal halen. Het is direct het tegenovergestelde van Nvidia die zaken aan het brute forcen is omdat Nvidia daar een overduidelijk voordeel heeft.
Zowel AMD als Nvidia spelen gewoon naar hun sterktes. En Intel, tja die lijken ergens in het midden te liggen tussen AMD en Nvidia. Op zich lijkt hun RT hardware concept misschien wel de beste van de drie te zijn. In ieder geval lijkt het vrij compleet te zijn met bijvoorbeeld ook zaken zoals hardwarematige thread sorting, maar er zijn helaas nogal wat dingen die niet erg goed gegaan zijn met Alchemist...
Als ik deze theorie erbij pak, tja AMD zit op lv3, Nvidia ergens tussen 3 en 4 met misschien wel de minste BvH hardware en alleen sorting met een developer implemented software implementatie en Intel zit gewoon op lv.4.
https://blog.imaginationt...-it-will-mean-for-gaming/
Maar voor Cyberpunk RT Overdrive worden Micro Meshes niet gebruikt. Dat weet ik omdat als ze wel gebruikt zouden worden, Nvidia dit wel gezegd had. Cyberpunk gebruikt alleen SER, Shader Executing Reordering om Shader Execution te hersorteren, uiteraard ten voordelen van Nvidia. Daarmee komen we dus alweer terug bij tech demo. Er draait een stukje Nvidia software in de achtergrond om workloads specifiek te optimaliseren voor RTX40 en alsnog draait het voor geen meter zonder twee aparte lagen van reconstructie. Want laten we wel wezen, wie koopt er nu werkelijk een RTX4090 voor 1440p? Je hebt gewoon een 7800X3D nodig om er dan nog een redelijke marge eruit te halen boven een RTX4080 of RX7900XTX. Afijn.
Tweede is dat ik er niet helemaal overtuigd van ben of AMD hun culling technieken altijd even goed werken in de huidige, vaak noodgedwongen ook sterk op Turing/Ampere/Ada hardware gebaseerde RT implementaties. Dit zeg ik omdat het mij opvalt dat de RX6800XT en RX7900XT ongeveer gelijkwaardig presteren als ik rekening hou met de verschillen in hardware. Immers heeft de RX7900XT 84CU x 100 : 72CU = (1)16,66% meer RT units en 2600MHz x 100 : 2300MHz = (1)13% meer clock speed. Wat je dus zou verwachten is een verbetering van rond de 30% puur vanwege meer hardware en clock speed.
Gaan we naar Australian Steve. (best Steve

)
Op 1440p en 4K zit je op gemiddeld 39% sneller. Maar er verschuiven ook wat resultaten. Bijvoorbeeld:
Cyberpunk gaat van 35% op 1440p naar 43% op 4K. Maar Witcher 3 gaat van 49% naar 41%.
Hogwarts gaat van naar 48% naar 29%.
Nu weet ik dat bij Witcher 3 de implementatie gewoon slecht is. Binnen een paar dagen was er al een mod die enorm inhakte op ray casts per pixel zonder echt groot verlies in visueel effect. Typische Nvidia implementatie die alleen maar goed draait op RTX40. Ik vermoed dat je bij Hogwarts problemen krijgt vanwege details die de game heeft, met name in het prachtig gedetailleerde kasteel. Maar bij Hogwarts heb je eigenlijk al behoorlijk goede baked light inclusief reflections, waardoor de meerwaarde van RT een beetje verloren gaat.
Dan in Ghostwire lijkt het te zwaar te worden qua ray casts op 4K. Die zakt helemaal in. Hitman 3, tja daar werkt het overduidelijk met 57% winst.
Dan heb je nog een hele lijst met games die rond de 30-40% marge zitten op 1440p/4K alsmede redelijk constant zijn tussen die twee resoluties. In sommige gevallen zal FSR2 ook een extra dempend effect hebben waardoor je anders misschien iets meer marge (of juist een nog grotere terugval) op 4K zou zien, maar ik weet niet eens of al die games wel FSR2 hebben.
Er gebeurd dus zeker wel iets, maar echt uniform revolutionair is het ook niet. Het is iets waarbij ik vermoed dat het verschil nog wel kan gaan oplopen als er meer games komen die hier beter gebruik van kunnen maken.
[...]
Eens dat Lumen in UE5 waarschijnlijk makkelijker en beter bruikbaar is. Maar wat is uiteindelijk mooier en de toekomst? Path tracing geeft GPU hardware een nieuw doel om naar toe te werken.
Ik betwist de superioriteit van path tracing helemaal niet.
Het gaat mij erom dat we nu al richting de 5 jaar aan GPUs met RT hardware gaan. Vijf jaar geleden besefte ik me, mede dankzij Werelds zijn reacties destijds, dat we waarschijnlijk iets van vijf jaar en nog twee generaties nodig zouden hebben voordat we iets gingen zien. Nou af en toe hebben wel al iets gezien, maar veel implementaties zijn gewoon nog steeds brak. Ze draaien niet goed en het verschil tussen RT en niet RT light is te groot, ogenschijnlijk omdat er gewoon geen tijd meer was om niet RT based light goed te implementeren. Logisch want wat moet dat inmiddels lang duren met zoveel objecten alsmede de kwaliteit van objecten en textures in games. Een slechte implementatie valt nu gewoon veel meer op dan een paar jaar geleden.
Maar daar is dan Lumen als een relatief breed beschikbare, vendor agnostische, hybride aanpak (zowel
software based RT als hardware based RT) die uitgebreid en van wat ik heb gezien in demonstraties, ook relatief gemakkelijk is te optimaliseren is per light source en object waarmee je te maken hebt. Het hele punt van een implementatie zoals dit is dat je in tegenstelling to path tracing, niet alles hardwarematig hoeft te gaan checken als dit niet nodig is. Hiermee kan je juist je hardware RT toespitsen op waar het meerwaarde heeft.
Daarmee kan je dus ook de kwaliteit gaan opvoeren. Wat ik daarbij een interessante zou vinden zijn waterplassen of zelfs grote wateroppervlakten die subtieler zijn dan zich te gedragen als een spiegel met RT. Want dat vind ik zo lelijk en dit lijkt zo ongeveer Nvidia hun favoriete trucje te zijn.
edit:
En toen bleek er al een mod opgedoken te zijn voor Cyberpunk RT overdrive. Deze zet ray bounce van 2 naar 1 alsmede een 20% reductie in de afstand die een ray kan afleggen, met uiteraard prestatieverbeteringen. Prestatieverbeteringen die geheel toevallig groter zijn voor RTX30 dan RTX40 en nog veel groter zijn voor RDNA3. Dat zag ik ook echt niet aankomen.
Experimentje. Welke is het origineel en welke is de mod? Niet valsspelen met de frame rate meting rechtsboven. Eentje is namelijk ruim 60% meer fps dan de ander.
spoiler:Uiteraard is de bovenste twee bounces. Kijk naar maar de bomen en de vloer die met twee lichtbronnen en een tweede bounce, meer subtiele overgang van kleuren krijgen.
Daarnaast zijn er nog een paar andere varianten zoals eentje die RIS weer enabled. Zorgt uiteraard voor wat onscherpte, maar het is weer extra winst die weer groter is voor RDNA3 dan RTX30 of RTX40.
In total from general testing of users on the original optimizations file:
NVIDIA RTX 40 series users get between 10-20% fps gain,
NVIDIA RTX 30 series users get between 15-30% fps gain, (and around 30-45% fps gain with RIS)
AMD RX 7000 series get between 40-100% fps gain (and around 70-200% fps gain with RIS)
Additional testing on my 7900xtx on the original:
the gains are very dependent on resolution,
4k no fsr gets around 90-110% depending on scene in my case,
4k fsr perf/ultra perf around 40% fps
Additional testing on my 7900xtx with original + RIS:
4k no fsr gets around 160-200% now
4k fsr perf/ultra perf are around 70/80% fps gains
https://www.nexusmods.com/cyberpunk2077/mods/8059?tab=files
[
Voor 20% gewijzigd door
DaniëlWW2 op 15-04-2023 19:46
]
Never argue with an idiot. He will drag you down to his own level and beat you with experience.