Hmm nee, het feit dat de prestaties en het verbruik zo mee ging was vooral een "happy accident", omdat de logica telkens beter werd en er in verhouding met minder transistors meer gedaan kon worden en dat dus ook compacter werd en minder verbruikte. Als ze zich daar op gericht hadden, hadden we nu nog steeds op Tesla als architectuur gezeten
20+ jaar geleden was een die-shrink veel effectiever dan nu, omdat alles (zelfs de logica) nu tegen de limiet aan zit. De node sprongen werden toen dan ook precies daarvoor gebruikt: de bestaande chips simpelweg verkleinen. Maar we hadden toen ook echte ticks in het tick-tock patroon; bij elke generatie kwamen er meer ops per tick per pipeline uit. Na de overgang naar unified shaders was dat lang ook nog zo: meer ops per tick per unit, minder tikken per wavefront, enzovoort. Als er ooit een tijd was om dat niet te hoeven doen, was het wel toen

Voor een deel is dit gecompenseerd door meer stroom te gebruiken. Zo gebruikte de 1080 maar 180 watt, tegenover 320 voor de 4080. Zowel qua prijs als stroomverbruik is de 4070 een betere opvolger voor de 1080 dan de 4080. Dan zie je dat we ongeveer een verdubbeling performance/watt hebben bereikt in de 7 jaar tussen de 1080 en de 4070 (14% verbetering per jaar).
Maar de 4070 (Ti)
is ook de opvolger van de 1080
Het zijn beide de middenklasse xy4 chips met rond de 300mm², wat de norm is voor die klasse chips. De uitschieters naar boven toe (zoals GM204) zijn gevallen waar er geen node verandering was. Het is juist AD103 (4080) die buiten de norm valt, het is een aparte chip die ze specifiek hebben ontworpen om dat gat rond de 400 in te vullen.
Maar "2x performance met hetzelfde verbruik voor dezelfde prijs" in 7 jaar tijd is dus veel en veel langzamer dan Moore's Law, die zegt dat dit elke twee jaar gebeurd.
Zoals gezegd heeft hij dat nooit gezegd; in zijn tijd waren chips zo simpel dat twee keer zo veel transistors ook twee keer zo snel betekende, maar hij gaf toen ook al aan dat dat niet zo zou blijven en daar had hij gelijk in. En qua dichtheid kán dat ook nog gehaald worden - met zulke extreem simpele chips. Het is het kost-element waar zijn stelling inmiddels op gestorven is.
Dat gezegd hebbende, qua dichtheid zit je op 7 jaar tijd op pakweg 5 keer zo veel transistors per vierkante millimeter (12FF, N7, N5). Dat al die transistors niet tot prestaties leiden ligt niet aan de transistors: dat ligt deels aan Nvidia's slechte ontwerp aan de "raster" kant, anderzijds aan het feit dat we nu chips hebben die in feite twee volstrekt andere dingen moeten doen. Enerzijds heb je de ouderwetse FP/INT ALU's, anderzijds het RT gedeelte - hoewel de ene het andere voedt (RT komt uiteindelijk aan de raster kant terecht), heb je dus ook inherent met inefficiëntie te maken. Maar dat geldt enkel voor specifiek dit soort chips. Kijk voor de gein eens naar Apple's chips, die komen er veel beter vanaf als je de wafer prijzen niet mee telt.
Vergelijk ook Pascal en Turing (~25 MTr/mm²) eens met Ampère (~45) en Ada (~125). Turing spendeerde al een deel van z'n extra transistors aan RT en TC, zónder een hogere dichtheid te halen en tóch kwamen er in verhouding alsnog betere raster prestaties uit dan met Pascal. Met Ampère is een hoop van die transistors gaan zitten in de nieuwe, complexere FP/INT ALU's die het gewoon niet waard zijn gebleken. Dus ondanks het feit dat de dichtheid op een half-node sprong naar een andere fab (!) alsnog bijna verdubbelde, is een hoop van die transistors verspild. Vervolgens krijg je Ada, waar een hoop van die transistors in de grotere L2$ gaan zitten maar ook niet even veel opleveren.
Ik voorzie dat het pas echt weer boeiend wordt zodra we nieuwe interconnects krijgen waardoor ze met vrij lage latency, hoge bandbreedte en tegen relatief lage kosten verschillende chiplets kunnen koppelen.
Maar dat krijgen we zeker nog niet voor de volgende generatie.
De technologie voor die interconnects is er al. Het zijn de architecturen (in alle 3 de kampen) waar het probleem zit, zoals ik al vaker heb gezegd. Chiplets zijn leuk en aardig, maar zolang RT en "raster" niet los getrokken worden en onafhankelijk van elkaar kunnen schalen, hebben we niets aan betere interconnects. En in Nvidia's geval zouden de Tensor Cores liefst ook nog losgetrokken worden. Het probleem daarbij wordt het aansturen van dat alles. De data rondpompen krijgen ze wel voor elkaar, maar dat alles apart aansturen vereist een geheel andere aanpak. Nvidia's "mostly-software" aanpak is niet te handhaven, dat moet echt vanaf 0 opgebouwd worden. AMD zit in een betere positie, maar die moeten alsnog het probleem van een soort "arbiter" tussen de chiplets oplossen. Intel zit een beetje tussen die twee in, ze zijn niet zo extreem driver-afhankelijk als Nvidia, maar ze doen wel meer dan AMD.
Zelfs als TSMC's N3 5 keer hogere dichtheid zou kunnen produceren aan exact dezelfde kosten als N5, zou Nvidia er alsnog niets mee kunnen met de huidige architectuur. Je krijgt dan wederom meer RT cores en meer SM's, maar al die krengen aansturen wordt nóg lastiger. De meeste transistors in een 4090 zitten nu al de helft van de tijd uit hun neus te vreten, dat wordt dan alleen maar erger.