Artikel: nieuws: 'Samsung verhoogt DDR5- en HBM-prijzen 30 procent na korte dip en ver...
Auteur: @JaspB
Zover ik de paper en blog post begrijp, heeft TurboQuant geen impact op het trainen van het model. https://research.google/b...with-extreme-compression/
De vooruitgang gaat specifiek over de KV-cache, wat enkel gebruikt/aangeroepen wordt tijdens inferentie. (Terzijde: tijdens training is het model namelijk niet causaal (token per token) maar wordt er een causaal masker gebruikt om "te doen alsof", wat het trainen veel sneller maakt (een forward pass) dan inferentie (forward pass voor elk nieuw token).)
Auteur: @JaspB
Zover ik de paper en blog post begrijp, heeft TurboQuant geen impact op het trainen van het model. https://research.google/b...with-extreme-compression/
De vooruitgang gaat specifiek over de KV-cache, wat enkel gebruikt/aangeroepen wordt tijdens inferentie. (Terzijde: tijdens training is het model namelijk niet causaal (token per token) maar wordt er een causaal masker gebruikt om "te doen alsof", wat het trainen veel sneller maakt (een forward pass) dan inferentie (forward pass voor elk nieuw token).)