• CSB
  • Registratie: Juli 2003
  • Laatst online: 15:05

CSB

:D

Voor de Local LLM enthausiastlingen met beperkte hardware is dit goed nieuws:
TL;DR, tot 6x meer KV cache door deze nieuwe quantization method. Dus veel langere context met kleinere modellen. _/-\o_

Met zo'n administrator heb je geen users meer nodig...


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 22:44
Wat meer achtergrond: https://www.dutchitleaders.nl/news/728196/google-turboquant-de-toekomst-van-supersnel-zoeken

Ik dacht even dat het weer één van de vele clickbait video's was, en dat is het natuurlijk wel een beetje want het zijn vooralsnog theoretische verbeteringen die alleen op een H100 (volgens google) getest zijn met forse snelheids/compressiewinst. Maar het ziet er inderdaad wel indrukwekkend uit, als dat echt enigszins klopt kun je ineens met een 16GB vram kaart behoorlijk serieuze modellen draaien en komt er heel veel moois beschikbaar voor lokale AI :). Maar toch ook wel een kleine pas op de plaats: ze noemen snelheidswinst tot 8x, dus ongetwijfeld is het op heel veel plekken 'maar' een snelheidswinst van 2x o.i.d. Even de conferentie afwachten dus.

[ Voor 12% gewijzigd door DeNachtwacht op 27-03-2026 15:22 ]

Pagina: 1 2 Laatste