Google introduceert Gemma 4 voor lokaal gebruik, nieuwe… - Geachte redactie

donderdag 2 april 2026 21:42

Acties:

Topicstarter

Artikel: nieuws: Google introduceert Gemma 4 voor lokaal gebruik, nieuwe opensourcelic...
Auteur: @YannickSpinner

"Dat is in principe dus lokaal mogelijk, al zullen weinig consumenten een H100 hebben."
nieuws: Google introduceert Gemma 4 voor lokaal gebruik, nieuwe opensourcelic....

Dat is niet juist, je hebt geen H100 nodig.

For local setups, quantized versions run natively on consumer GPUs to power your IDEs, coding assistants and agentic workflows.

Ze hebben 8 bits en 4 bits varianten van de grote modellen. Deze passen als volgt:

Gemma-4-E2B and E4B runs on 5GB RAM (4-bit) or 15GB (full 16-bit precision). Gemma-4-26B-A4B runs on 18GB (4-bit) or 28GB (8-bit). Gemma-4-31B needs 20GB RAM (4-bit) or 34GB (8-bit). See: Unsloth Gemma 4 GGUFs

Zie: https://unsloth.ai/docs/models/gemma-4
Dat betekent dus dat 3090, 4090 en 5090 de modellen lokaal kunnen draaien, de 5090 zelfs in 8-bit.
En ook diverse AMD kaarten dit prima kunnen.

Zie ook dit tabel: https://ai.google.dev/gem...rence-memory-requirements

De modellen zijn zeer goed in programmeren, en een factor 2 of meer sneller dan concurrerende modellen.

Je hebt dus geen H100 nodig. De H100 wordt genoemd omdat die de kleinste standaard GPU is in een data centrum. Dat is zelf maar de rolmaat, daarom zijn veel modellen nét kleiner dan 80GB, of 80GB min de grote context Window.grote of juist precies een veelvoud van 80GB min een kleine marge.

Tot voor kort had je 8xH100 nodig om een basis model te draaien. Nu is dit model dus 8x energie zuiniger én nog veel sneller en intelligenter ook.

De twee kleine modellen kunnen ook gewoon 140 talen vertalen, lokaal op je telefoon, vanuit spraak.. met 1 prompt, geen cloud meer nodig.

En ook op een Jetson Orin Nano Super, de kleinste 8GB - 3060 equivalent - developer board van NVIDIA. En zelfs op een Raspberry Pi.

Aanvulling:
Unsloth is dé partij waar alle AI-bedrijven mee samenwerken voor het kwantificeren van hun modellen. Kwantificeren is zorgen dat met zo min mogelijk kwaliteitsverlies de modellen worden verkleind door een andere samenstelling van de gewichten.

Zowel OpenAI, Qwen als NVIDIA werken ook samen met Unsloth om te zorgen dat op de dag van release er al unsloth geoptimaliseerde versies zijn, vaak net zo nauwkeurig als het bron model of slechts enkele procentpunten minder.

[ Voor 28% gewijzigd door djwice op 03-04-2026 07:34 ]

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/

vrijdag 3 april 2026 08:31

Acties:

YannickSpinner

Redacteur

Ik voeg een bijzin toe, thanks!

vrijdag 3 april 2026 10:09

Acties:

3_s

Ik vond het vooral een heel rare titel, zijn er precies twee tegen elkaar geplakt.