• CSB
  • Registratie: Juli 2003
  • Laatst online: 15:15

CSB

:D

Voor de Local LLM enthausiastlingen met beperkte hardware is dit goed nieuws:
TL;DR, tot 6x meer KV cache door deze nieuwe quantization method. Dus veel langere context met kleinere modellen. _/-\o_

Met zo'n administrator heb je geen users meer nodig...


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Wat meer achtergrond: https://www.dutchitleaders.nl/news/728196/google-turboquant-de-toekomst-van-supersnel-zoeken

Ik dacht even dat het weer één van de vele clickbait video's was, en dat is het natuurlijk wel een beetje want het zijn vooralsnog theoretische verbeteringen die alleen op een H100 (volgens google) getest zijn met forse snelheids/compressiewinst. Maar het ziet er inderdaad wel indrukwekkend uit, als dat echt enigszins klopt kun je ineens met een 16GB vram kaart behoorlijk serieuze modellen draaien en komt er heel veel moois beschikbaar voor lokale AI :). Maar toch ook wel een kleine pas op de plaats: ze noemen snelheidswinst tot 8x, dus ongetwijfeld is het op heel veel plekken 'maar' een snelheidswinst van 2x o.i.d. Even de conferentie afwachten dus.

[ Voor 12% gewijzigd door DeNachtwacht op 27-03-2026 15:22 ]


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:15

CSB

:D

En hier is BitNet (aanrader om even te kijken):
Overigens, over mijn vorige post Turboquant:
llama-cpp-turboquant-guide Het lukt ze om bijv. op een RTX4070 Mobile GPU (dus 8GB) een context size van 64K te runnen.

Erg interessante tijden gaan we tegemoet voor Local LLM's. :)

[ Voor 36% gewijzigd door CSB op 02-04-2026 15:54 . Reden: turboquant toegevoegd ]

Met zo'n administrator heb je geen users meer nodig...


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
@CSB zo spectaculair is dat toch niet? Die context length is simpelweg fijn, maar in de basis gaat het natuurlijk om de grootte van het model. In het voorbeeldje van jouw site lees ik dat ze Llama-3.1-8B-Instruct Q4_K_M draaien op een 4070 met 8gb mobile, tsja leuk dat het met wat meer context kan, maar het blijft een vrij basaal model dat in de basis 5GB groot is. Die extra context is aardig, maar gezien alle clickbait flauwekul "turboquant BREAKS NVIDIA", "TurboQuant DROPPED AND KILLS CLOUD AI" had ik toch wel op zijn minst de verwachting dat Turboquant het ook mogelijk zou maken om modellen die groter zijn dan het VRAM te draaien. Dát zou echt revolutionair zijn en werd een beetje beloofd tussen alle sensatie door...

Het volgende clickbait filmpje over een 1B model sla ik dus ook gerust over... ik merk dat het pas enigszins vergelijkbaar wordt met een cloud model als je minimaal 30B / 35B hebt. Als het echt zo goed is, komt het wel op serieuze media voorbij. Merk dat ik al maanden youtube totaal niet meer kijk voor dit soort nieuwtjes want in elk filmpje wordt je schreeuwend beloofd dat je vanaf nú lokaal op je 3Dfx uit 1998 met 1 MB ram zelfs de cloud modellen van ChatGPT van enkele terabytes groot kan draaien... en vervolgens blijkt dat er een kleine tweak aan een LLM of tool is die een paar procent snelheidswinst oplevert ergens. En dat blijkt dan ergens in de laatste minuut van het filmpje waar je al teasend naartoe wordt geschreewd.

[ Voor 38% gewijzigd door DeNachtwacht op 02-04-2026 16:09 ]


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:15

CSB

:D

Tja, dan is het Bitnet filmpje niet voor jou bedoeld denk ik. Ik werd na met name het tweede filmpje waarin hij demonstreert wat een 1-bit bitnet model doet op een M4 mac, wel geïnteresseerd.
Ik zal voortaan de "clickbait filmpjes" achterwege laten, ook al was het goed bedoeld.

Met zo'n administrator heb je geen users meer nodig...


  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
Ik heb voorlopig sowieso even geen interesse meer in lokale AI-modellen.

Het is al moeilijk genoeg om een model in de cloud te laten doen wat je wil, laat staan lokaal waar het model zelf meestal beperkte context en kennis heeft.

Ik vraag het maar eens hier: is het ‘t tot nu toe echt allemaal waard om daar mee te prutsen? Na een uur draait er bij mij lokaal wel wat, maar krijg ik toch een inconsistente gebruikservaring. Of doe ik iets verkeerd?

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Op zich kun je best al wel leuke dingen doen hoor, het is alleen wat trager dan online en uiteindelijk ook toch wel altijd minder goed. Toevallig is net het nieuwe Gemma 4 model uitgekomen. Je kan hier zien welk model je kan draaien afhankelijk van je gpu:

https://unsloth.ai/docs/models/gemma-4

Gemma E4B zal je dus op een gpu met 16GB vrij royaal in 8 bit kwantisatie kunnen downloaden en gebruiken. Lekker snel en gebruiksvriendelijk is Ollama: https://ollama.com/library/gemma4

Maar idd is en blijft het vooral interessant voor hobbyisten of juist als je er écht professioneel mee aan de slag wil (met stevige GPU's). Voor gewoon casual met een taalmodel aan de slag is over het algeen een cloud model simpeler en ook fors beter. Wel is het voordeel van lokaal draaien natuurlijk dat je zeker weet dat je data echt binnen je pc blijft.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Mijn AI machine moet eigenlijk eens een opfrisbeurt krijgen. Ik heb de laatste paar maanden er niet zo veel mee gedaan. Wel gedacht aan RAG en agents, maar nooit de stap genomen om daar in te duiken. Wat ik nu heb werkt wel oké voor programmeren en vertalen. Voor kennisvragen gebruik ik de lokale AI niet (meer).

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Gr4mpyC3t schreef op donderdag 2 april 2026 @ 21:03:
Ik heb voorlopig sowieso even geen interesse meer in lokale AI-modellen.

Het is al moeilijk genoeg om een model in de cloud te laten doen wat je wil, laat staan lokaal waar het model zelf meestal beperkte context en kennis heeft.

Ik vraag het maar eens hier: is het ‘t tot nu toe echt allemaal waard om daar mee te prutsen? Na een uur draait er bij mij lokaal wel wat, maar krijg ik toch een inconsistente gebruikservaring. Of doe ik iets verkeerd?
Voor gebruikers vragen heeft het weinig waarde buiten het hobby'en. Voor agentic AI is het heel handig. Als m'n agents allemaal cloud based zouden draaien, had ik iedere maand een kleine 10.000 euro kunnen afrekenen aan token usage. Ik heb twee piepkleine LLM's op mijn werklaptop draaien voor specialistische taken. En een server met een sloot vram voor grotere modellen die voor taak gerichte agentic AI worden gebruikt. Voor het bouwen van automations gebruik ik n8n instances die gebouwd worden met een Claude subscription. En een chatgpt abbo voor vragen.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
@Seth_Chaos welke lokale modellen gebruik jij en voor welke agents?

  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
DeNachtwacht schreef op donderdag 9 april 2026 @ 18:09:
@Seth_Chaos welke lokale modellen gebruik jij en voor welke agents?
Qwen en Deepseek op mn server. Voor een orchestrator agent die al mijn agents aan stuurt. Een assistent agent die veel van mijn dagelijkse werkzaamheden heeft overgenomen. Een test agent die al het werk van al mijn agents test na elke actie. En een rits aan agents die in n8n workflows worden aangesproken. En een separate agent die mijn home automation regelt onderhoud en op aanvraag uitbreid. Welke LLM's op mijn laptop draaien weet ik niet meer. 1 gebruik ik om 24/7 mee te luisteren en automatisch ieder gesprek te transscripten en op te slaan in Obsidian. En om acties uit te voeren na een wake woord. De andere wordt gebruikt om alle terug koppeling die mijn orchestrator agent geeft om te zetten naar spraak. Wat heel handig is wanneer je 5 a 6 terminals hebt draaien met verschillende projecten die ieder door de orchastrator worden gemanaged. Ik hoef dus niet al mijn terminals af om te weten hoe het ermee staat en ik kan gesproken antwoorden wanneer mijn archostrator iets vraagt, of wanneer ik iets gedaan wil hebben wanneer ik in een overleg zit om maar wat te noemen kan ik dat via een teams berichtje vragen.

En s' avonds wanneer ik wat beters te doen heb dan werken, laat ik vaak nieuwe projecten uitwerken en of voorbereiden en projecten coden.

En Claude gebruik ik met superpowers en skills. Voornamelijk om het werk van de lokale agents nog eens na te lopen en op te poetsen. En voor wat onderzoek. Ook die wordt aangestuurd door m'n orchastrator.

Ik kan dit ook iedereen aanraden. Begin klein. Neem een Claude account. Start Claude code in een terminal met super powers. Hang het aan een notitie tool zoals Obisidan. Leg je dagelijkse werkzaamheden eens vast in obsidian. Gebruik het gewoon een paar dagen als een soort dagboek. Vraag vervolgens Claude om de obsidian dir te gebruiken als werk folder voor Claude. En vraag eens te analyseren wat je allemaal op een dag doet en waar het denkt bij te kunnen helpen, en of welke werkzaamheden het kan overnemen. Vraag Claude dat in te regelen. Begin met zero trust. Alles wat het wil doen moet het eerst vragen. Wanneer je vertrouwen hebt dat het die taak altijd succesvol volbrengt, ga je een stapje verder en vraag je de taak automatisch uit te voeren met enkel een notificatie wanneer de taak gestart wordt, en een notificatie wanneer de taak is volbracht. En breid dat steeds verder uit, tot je op den duur meerdere agents volledig autonoom hun werk kunt laten doen. Zodra de agents autonoom beginnen te werken, verhuis je ze naar lokale AI, zodat er iets overblijft van je bankrekening (of de bankrekening van je werkgever).

Veel mensen zijn bang dat ze daarmee zichzelf overbodig maken. Maar het tegendeel is waar. Ik heb nog steeds 8 uur werk. Maar in plaats van 8 uur zelf het werk te doen stuur ik een legioen agents aan. Mijn werkgever krijgt er een veelvoud van het werk dat ik voorheen deed voor terug. Ik ben nu dus veel waardevoller voor mijn werkgever dan voorheen. En het is ook veel leuker. Want al het hersen dodende werk dat ik voorheen deed, en alles waar ik nul energie van kreeg heb ik als eerste weg geautomatiseerd.

[ Voor 38% gewijzigd door Seth_Chaos op 09-04-2026 19:17 ]


  • daily.data.inj
  • Registratie: Januari 2019
  • Niet online
Seth_Chaos schreef op donderdag 9 april 2026 @ 18:31:
[...]


Qwen en Deepseek op mn server. Voor een orchestrator agent die al mijn agents aan stuurt. Een assistent agent die veel van mijn dagelijkse werkzaamheden heeft overgenomen. Een test agent die al het werk van al mijn agents test na elke actie. En een rits aan agents die in n8n workflows worden aangesproken. En een separate agent die mijn home automation regelt onderhoud en op aanvraag uitbreid. Welke LLM's op mijn laptop draaien weet ik niet meer. 1 gebruik ik om 24/7 mee te luisteren en automatisch ieder gesprek te transscripten en op te slaan in Obsidian. En om acties uit te voeren na een wake woord. De andere wordt gebruikt om alle terug koppeling die mijn orchestrator agent geeft om te zetten naar spraak. Wat heel handig is wanneer je 5 a 6 terminals hebt draaien met verschillende projecten die ieder door de orchastrator worden gemanaged. Ik hoef dus niet al mijn terminals af om te weten hoe het ermee staat en ik kan gesproken antwoorden wanneer mijn archostrator iets vraagt, of wanneer ik iets gedaan wil hebben wanneer ik in een overleg zit om maar wat te noemen kan ik dat via een teams berichtje vragen.

En s' avonds wanneer ik wat beters te doen heb dan werken, laat ik vaak nieuwe projecten uitwerken en of voorbereiden en projecten coden.

En Claude gebruik ik met superpowers en skills. Voornamelijk om het werk van de lokale agents nog eens na te lopen en op te poetsen. En voor wat onderzoek. Ook die wordt aangestuurd door m'n orchastrator.

Ik kan dit ook iedereen aanraden. Begin klein. Neem een Claude account. Start Claude code in een terminal met super powers. Hang het aan een notitie tool zoals Obisidan. Leg je dagelijkse werkzaamheden eens vast in obsidian. Gebruik het gewoon een paar dagen als een soort dagboek. Vraag vervolgens Claude om de obsidian dir te gebruiken als werk folder voor Claude. En vraag eens te analyseren wat je allemaal op een dag doet en waar het denkt bij te kunnen helpen, en of welke werkzaamheden het kan overnemen. Vraag Claude dat in te regelen. Begin met zero trust. Alles wat het wil doen moet het eerst vragen. Wanneer je vertrouwen hebt dat het die taak altijd succesvol volbrengt, ga je een stapje verder en vraag je de taak automatisch uit te voeren met enkel een notificatie wanneer de taak gestart wordt, en een notificatie wanneer de taak is volbracht. En breid dat steeds verder uit, tot je op den duur meerdere agents volledig autonoom hun werk kunt laten doen. Zodra de agents autonoom beginnen te werken, verhuis je ze naar lokale AI, zodat er iets overblijft van je bankrekening (of de bankrekening van je werkgever).

Veel mensen zijn bang dat ze daarmee zichzelf overbodig maken. Maar het tegendeel is waar. Ik heb nog steeds 8 uur werk. Maar in plaats van 8 uur zelf het werk te doen stuur ik een legioen agents aan. Mijn werkgever krijgt er een veelvoud van het werk dat ik voorheen deed voor terug. Ik ben nu dus veel waardevoller voor mijn werkgever dan voorheen. En het is ook veel leuker. Want al het hersen dodende werk dat ik voorheen deed, en alles waar ik nul energie van kreeg heb ik als eerste weg geautomatiseerd.
Uit nieuwsgierigheid aan wat voor hersendodend werk of taken waar je 0 energie van krijgt moet ik aan denken?

  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Alles administratief, documenteren, tijdschrijven, mail bijhouden, tickets bijwerken, teams communicatie, interne blogs schrijven, presentaties opstellen, mijn agenda bijhouden inclusief het maken van afspraken, project management, trainingen voorbereiden. De complexere beheer taken uitvoeren. Probleem analyses uitvoeren, RFC's opstellen en laten goedkeuren. De changes doorvoeren uit die RFC's. Standaard changes doorvoeren zoals onboarding en offboarding van medewerkers, rechten mutaties, firewalls, switches en accespoints inrichten. Security harding, updaten van netwerk apparatuur. Server herstarts overleggen met de klant, inplannen, uitvoeren en monitoren. Automations ontwerpen, bouwen en opleveren. En ongetwijfeld nog een hoop dat ik vergeet. Alles wat ik meer als één keer precies hetzelfde moet doen wordt geautomatiseerd.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een video over Hermes, een AI agent die je lokaal kan draaien:
Het lijkt me wel interessant om eens uit te proberen.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Trasos
  • Registratie: Juli 2003
  • Niet online
Seth_Chaos schreef op donderdag 9 april 2026 @ 23:28:
Alles administratief, documenteren, tijdschrijven, mail bijhouden, tickets bijwerken, teams communicatie, interne blogs schrijven, presentaties opstellen, mijn agenda bijhouden inclusief het maken van afspraken, project management, trainingen voorbereiden. De complexere beheer taken uitvoeren. Probleem analyses uitvoeren, RFC's opstellen en laten goedkeuren. De changes doorvoeren uit die RFC's. Standaard changes doorvoeren zoals onboarding en offboarding van medewerkers, rechten mutaties, firewalls, switches en accespoints inrichten. Security harding, updaten van netwerk apparatuur. Server herstarts overleggen met de klant, inplannen, uitvoeren en monitoren. Automations ontwerpen, bouwen en opleveren. En ongetwijfeld nog een hoop dat ik vergeet. Alles wat ik meer als één keer precies hetzelfde moet doen wordt geautomatiseerd.
Weten die klanten (en je werkgever) ook dat de server updates en herstarts door AI wordt gedaan?
Ik lees nog iets te vaak "Oeps, Qwen heeft een "rm -rf"-je gedaan..." op Reddit om dat te vertrouwen.

  • i-chat
  • Registratie: Maart 2005
  • Niet online
ik moet heel eerlijk zeggen dat ik ook sceptisch ben om die 1bit modellen maar als je ziet wat het op een m4 kan doen dan zou ik eigenlijk het liefst een nieuwe rasberry pi (of soortgelijke) met een onboard gpu willen zien. hoe dan ook denk ik dat we als het op llm's aankomt we wat meer zouden moeten specialiseren op taak.

als jij iets met coding wilt doen moet je niet een llm heben die de boeken van harry potter heeft geleend. maar als je een email wilt opstellen zou het inlezen van heel veel boeken tijdschriften en kranten juist wél meerwaarde hebben in de data-set.

want laten we eerlijk zijn een 1bit model (liefst getraind op alleen nederlands- en engelstalige data) zou heel handig kunnen zijn voor de allersimpelste taken zoals: een email verzenden, een agenda beheren, je home-assistant aansturen (en dan begrijpen dat: maak het donker, hetzelfde is als doe het licht uit en dat soort saaie troep. eigenlijk spul wat je misschien nu al een gemma 4 e2b zou kunnen laten proberen maar dan met NÓG minder resources.

zo wil ik al een tijdje mijn eigen personal assistent - maar houdt vooralsnog de dure hardware het een beetje tegen. ik hoef geen AI die ingewikkelde dingen kan en zelfs als ik die wél wil zit dat al in mijn office365 account. waarin ik teksten kan laten redigeren ..

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ja, het oude adagium het juiste gereedschap voor de klus gebruiken gaat hier ook op. Gelukkig kan je daar ook gewoon een keuze in maken.. En ik denk dat je er toch niet omheen kan dat je met minimaal 16GB aan VRAM moet werken voordat je überhaupt enigszins bruikbare resultaten gaat zien. Dat lijkt min of meer de ondergrens van het bruikbare. Als het om de toekomst gaat heb ik dan ook meer fiducie in zaken zoals TurboQuant. Wat me dan wel waarschijnlijk lijkt is dat je desondanks toch veel geheugen nodig blijft hebben, want de benutting daarvan gaat door TurboQuant waarschijnlijk alleen maar omhoog.

HA aansturen kan natuurlijk al lokaal, dat had ik ook een tijdje draaien, voordat ik alles overhoop haalde en het nu weer opnieuw moet installeren. Ik moet alleen nog een slimme speaker hebben die dan met HA praat. Het is overigens beter om een relatief klein model (~12B parameters) te draaien voor dat soort dingen, omdat de interpretatie al lang genoeg duurt met zo'n klein model.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Trasos schreef op maandag 4 mei 2026 @ 17:20:
[...]

Weten die klanten (en je werkgever) ook dat de server updates en herstarts door AI wordt gedaan?
Ik lees nog iets te vaak "Oeps, Qwen heeft een "rm -rf"-je gedaan..." op Reddit om dat te vertrouwen.
Yes, daar wordt ik voor betaald.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Hmm, lokale modellen zijn voor programmeren nog best goed te gebruiken, mits van voldoende omvang:

[ Voor 6% gewijzigd door ocf81 op 07-05-2026 21:19 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Jaja... is al een tijdje hoor. Qwen 3.5 en Gemma 4 waren hier al best goed in, en Qwen 3.6 is alweer uit die ook weer substantiële sprongen maakt.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 7 mei 2026 @ 23:34:
Jaja... is al een tijdje hoor. Qwen 3.5 en Gemma 4 waren hier al best goed in, en Qwen 3.6 is alweer uit die ook weer substantiële sprongen maakt.
Ik draai zelf geen benchmarks, dus het is wel fijn om dat eens gekwantificeerd te zien :)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • i-chat
  • Registratie: Maart 2005
  • Niet online
[q]HA aansturen kan natuurlijk al lokaal, dat had ik ook een tijdje draaien, voordat ik alles overhoop haalde en het nu weer opnieuw moet installeren. Ik moet alleen nog een slimme speaker hebben die dan met HA praat. Het is overigens beter om een relatief klein model (~12B parameters) te draaien voor dat soort dingen, omdat de interpretatie al lang genoeg duurt met zo'n klein model.[/q] mijn punt is / was dat een model als gema 4 e4b al op iets van 5gb schijnt te draaien. en dat is in beginsel al een multi-lingual audio/text/image model enige jammere aan dat model is dat je geen spraak-output hebt en daar dus nog een apart model voor moet inladen dat maakt het vram gebruik nog weer nét wat hoger.

wat betreft die speaker ben ik het voor 150% met je eens, het is leuk dat er her en der allerlij kickstarters rondgaan voor vervangende printplaatjes voor je google mini met een of andere esp chip en openwakeword erop maar ik wil helemaal geen printplaat is ik een kant-en-klaar product

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een video over een een MI50, de AMD instinct adapter gebaseerd op Vega 20, inclusief mooie vergelijkingen met een AMD R9700 en een AMD Strix HALO:

[ Voor 9% gewijzigd door ocf81 op 09-05-2026 13:24 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • pelican
  • Registratie: Juni 2001
  • Niet online

pelican

 

DeNachtwacht schreef op donderdag 2 april 2026 @ 23:13:

... Wel is het voordeel van lokaal draaien natuurlijk dat je zeker weet dat je data echt binnen je pc blijft.
Is dat echt altijd zo? Als je bijv open-webui gebruikt gaat die dan niet online zoeken en kan dat dan ook niet je content het web op sturen?

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
pelican schreef op zaterdag 9 mei 2026 @ 13:34:
[...]

Is dat echt altijd zo? Als je bijv open-webui gebruikt gaat die dan niet online zoeken en kan dat dan ook niet je content het web op sturen?
Via web search wordt er natuurlijk online gezocht, maar dat moet je ten eerste zelf aanzetten en ten tweede loopt dat dan dus via ollama zelf. Wel goed trouwens dat je die vraag stelt, want hoe de ollama tool met die privacy omgaat weet ik niet.

Maar het fijne van lokaal dingen stellen is dat je het ook echt weer kwijt bent zodra je naar een nieuwe tool/llm gaat. In chatgpt/copilot/gemini moet je zoveel moeite doen voor verwijderen dat op een gegeven moment privé gegevens toch ergens in de history blijven hangen en bovendien wordt het gebruikt voor trainen van nieuwe modellen. Bij jouw eigen open source model dat je lokaal draait ben je er 100% zeker van dat dat niet gebeurt want dat blijft allemaal op je pc.

[ Voor 7% gewijzigd door DeNachtwacht op 10-05-2026 12:04 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb de machine weer eens flink aan het werk gezet, maar ik merk dat modellen die het geheugen van één kaart ontspringen toch wel relatief langzaam draaien. Vermoedelijk ligt dat aan de beperkte bandbreedte tussen de twee kaarten, omdat het moederbord de kaarten op acht banen PCI-e 4.0 laat draaien. Ik overweeg om dan maar een Threadripper systeem te bouwen. Als ik de heb ik nog wel acht reepjes van 32GB DDR4, waardoor ik dan alleen een CPU en een moederbord zou hoeven kopen. Voor de generatie kaarten die ik nu gebruik (W6800 / RDNA2) is PCI-e 4.0 goed genoeg, maar als ik de kaarten opwaardeer naar iets nieuwers zal dat dan weer een beperking vormen en de restwaarde zal vermoedelijk gering zijn. Als ik voor een DDR5 systeem ga ben ik aan de beurt als het om de aanschaf van geheugen gaat, maar dan kan ik wel langer door met het moederbord. Wat zouden jullie doen?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
ocf81 schreef op vrijdag 15 mei 2026 @ 16:45:
Ik heb de machine weer eens flink aan het werk gezet, maar ik merk dat modellen die het geheugen van één kaart ontspringen toch wel relatief langzaam draaien. Vermoedelijk ligt dat aan de beperkte bandbreedte tussen de twee kaarten, omdat het moederbord de kaarten op acht banen PCI-e 4.0 laat draaien. Ik overweeg om dan maar een Threadripper systeem te bouwen. Als ik de heb ik nog wel acht reepjes van 32GB DDR4, waardoor ik dan alleen een CPU en een moederbord zou hoeven kopen. Voor de generatie kaarten die ik nu gebruik (W6800 / RDNA2) is PCI-e 4.0 goed genoeg, maar als ik de kaarten opwaardeer naar iets nieuwers zal dat dan weer een beperking vormen en de restwaarde zal vermoedelijk gering zijn. Als ik voor een DDR5 systeem ga ben ik aan de beurt als het om de aanschaf van geheugen gaat, maar dan kan ik wel langer door met het moederbord. Wat zouden jullie doen?
Een Mac Studio? Of is dat vloeken in de kerk? :P

Hoeveel geheugen heb je nu op die kaarten zitten? Als dat toereikend genoeg is en het gaat je puur om de PCI lanes, dan zou ik zelf niet de DDR5 hoofdprijs willen betalen (denk ik).

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Als je al een complete pc hebt staan is mac studio relatief duur, het is vooral interessant als je een nieuw systeem wil samenstellen met zoveel mogelijk vram (bovendien zijn ook deze steeds moeilijker te vinden door de geheugentekorten).

In dit geval is zo'n DDR4 uitbreiding relatief nog te doen, maar wat doe je er precies mee? Dat is nogal belangrijk om te zien wat slim is natuurlijk.

[ Voor 24% gewijzigd door DeNachtwacht op 15-05-2026 18:55 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Gr4mpyC3t schreef op vrijdag 15 mei 2026 @ 18:38:
[...]

Een Mac Studio? Of is dat vloeken in de kerk? :P

Hoeveel geheugen heb je nu op die kaarten zitten? Als dat toereikend genoeg is en het gaat je puur om de PCI lanes, dan zou ik zelf niet de DDR5 hoofdprijs willen betalen (denk ik).
Momenteel heb ik twee W6800's, waarmee het totaal op 64 GB VRAM komt. Ik overweeg om er twee kaarten er bij prikken. De huidige kaarten werken op PCI-e 4.0, maar als ik bijvoorbeeld zou overstappen naar AI9700's, dan zou dat 5.0 worden en die kaarten presteren iets beter dan de W6800's maar zijn ook niet veel duurder dan W6800's. Dat is ook een van de redenen om te kijken naar PCI-e 5.0. Ze waren alleen nog niet beschikbaar toen ik vorig jaar mijn systeem bouwde. Het nadeel van de AI9700 is wel dat die nog wat problemen met P2P heeft, waardoor een opstelling met meerdere kaarten nu nog niet werkt zoals je zou willen. Daar wordt geloof ik wel aan gewerkt en de upgrade kan later ook nog.

Met een Threadripper sWRX8 systeem is het kostenplaatje ca €2200 en het geheugen wordt daarnaast achtkanaals en 256GB. Met een Threadripper sTR5 systeem met 128GB RAM, en met 4 van de 8 kanalen bezet, dus effectief dezelfde geheugenbandbreedte als de sWRX8 opstelling, zit je aan ca. €8000. Dat is dus heel fors. Hét voordeel van sTR5 is dan natuurlijk dat de bandbreedte verdubbelt en dat kan echt wat schelen in casu LLM's draaien en dat je waarschijnlijk nog een nieuwe generatie kaarten er in kan prikken zonder dat die last gaan hebben van de bandbreedte op de bus.

Een Mac Studio is niet per se vloeken in de kerk, maar ik schat dan wel in dat 128 GB aan systeemgeheugen dan wel de ondergrens is. Die is alleen tweedehands verkrijgbaar en is zeldzaam. Ook is het aanpassen aan de andere software dan weer een heel leertraject. Het voordeel van een Threadripper PC is wel dat je ook makkelijk andere dingen ernaast kan draaien omdat de LLMs dan in een VM op Proxmox worden gehuisvest.

Maar goed, ik had eerder de kosten niet echt helder. Nu ik de mogelijkheden in wenslijsten heb gezet is dat wel het geval. Aangezien de kaarten voor beide opstellingen dezelfde kosten opleveren is het ook niet heel interessant om die op te sommen in de vergelijking. Die heb ik dus niet meegenomen en het is ook eigenlijk een losstaande overweging. €2200 voor een hobbyproject is aan de prijs, maar is "te overzien". Het is zeg maar een aanzienlijk deel van budget dat ik in een jaar aan mijn servers spendeer. Als je daar de prijs van een tweedehands auto tegenoverzet voor een verdubbeling van de bandbreedte naar/tussen de kaarten, dan moet ik toch wel twee keer nadenken. Tegelijkertijd lijkt de RAM-crisis nog zeker een jaar of anderhalf door te gaan, ook als OpenAI de opties die ze hebben niet uitoefent. Het is bijna alsof de CAPEX van de AI hosters in het klein wordt nagespeeld 8)7

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het wordt toch maar de sWRX8 opstelling, want dat geheugen is me te prijzig. Ik heb er nog twee SSD's bij gedaan, waardoor het iets duurder werd.
#CategorieProductPrijsSubtotaal
1ProcessorsAMD Ryzen Threadripper Pro 5955WX Boxed€ 664,89€ 664,89
1MoederbordenASRock WRX80 Creator R2.0€ 599,-€ 599,-
2VideokaartenAMD Radeon PRO W6800€ 0,-€ 0,-
1BehuizingenSilverstone RM51€ 449,-€ 449,-
1Computer-accessoiresSilverstone RMS05-22 rails€ 106,66€ 106,66
1ProcessorkoelingNoctua NH-U14S TR4-SP3€ 90,95€ 90,95
8Geheugen internMicron MTA18ASF4G72AZ-3G2B1€ 0,-€ 0,-
1VoedingenFSP Hydro PTM PRO 1650W ATX3.0(12V-2x6)€ 251,52€ 251,52
2Interne ssd'sLexar NM790 (zonder heatsink) 4TB€ 299,-€ 598,-
Bekijk collectie
Importeer producten
Totaal€ 2.760,02
Ik ben nog op zoek naar twee extra W6800's om het totaal op 4 te brengen.

[ Voor 98% gewijzigd door ocf81 op 19-05-2026 19:43 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:15

CSB

:D

Poeh, wat een geld :X

Kleine statusupdate van mijn bescheiden, oude gamebak:

Ik heb Ollama verruild voor Llama.cpp en op Ubuntu docker geinstalleerd. Mijn zeer oude Core i7 en 24 GB DDR3 RAM i.c.m. een RX6650XT kan toch de Qwen3.6 35B A3B draaien met 35+ token/s, wat ik acceptabel vind. Dit is tot op heden het beste wat ik eruit heb kunnen halen. Dankzij MTP zijn de kleine dense modellen ook nog eens een stukje sneller geworden, dus voor agents of automation tasks is het prima.

Ik wacht nog wel ff tot de bubble barst. ;)

Met zo'n administrator heb je geen users meer nodig...


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Goedkoop is anders, maar dan kan ik wel modellen draaien die weer een slag groter zijn, of agenten die veel tegelijk doen. Overigens had ik de Noctua koeler al in huis, want van 2017 t/m 2022 heb ik een Threadripper systeem als desktop gehad. Dus dat scheelt weer €90 :)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CT
  • Registratie: September 2001
  • Laatst online: 14:35

CT

📱💻 🎮 ⌚🖥

Ik was nog geen 800 kwijt voor mijn AI rig, al had ik nog 32GB ddr4 liggen en een ssd, anders was het iets duurder geweest. Voeding en mobo+cpu was 200. Lastigste was een mobo vinden die 2x pcie x16 heeft.

Draai nu 2xRTX3080, die van taobao met 20gb vram p/s, kosten ongeveer 300 (euro) p/s en ik haal nu 32tkn/s met qwen-3.6-27b-q8 met een grote context. Dus je hoeft echt niet je spaarrekening te plunderen 😁

  • Beekforel
  • Registratie: November 2001
  • Laatst online: 18:37

Beekforel

Is eigenlijk geen vis

ocf81 schreef op maandag 4 mei 2026 @ 10:17:
Een video over Hermes, een AI agent die je lokaal kan draaien:
[YouTube: Hermes Agent Setup With Use Cases - Hermes Agent Use Cases]
Het lijkt me wel interessant om eens uit te proberen.
Ik heb gisteravond Hermes opgezet. Simpel en snel geregeld. Heb hem Gemini en OpenAI gegeven en wat dingetjes geprobeerd, werkt erg soepel. Heb hem aan een loze Gmai gekoppeld waar 6000 ongelezen spam mails, in een zucht had hij dit opgeruimd. Ik had eerder IronClaw geprobeerd met dezelfde taak, die kwam hier niet doorheen en had ook weinig doorzettingsvermogen.

Hij gaat nu voor mij op zoek naar wat hardware zodat ik thuis wat models kan gaan draaien. Ik zou zo'n agent wel in willen zetten voor wat management van documenten en notities etc. Maar dar durf ik niet met een publiek model... :S

  • CT
  • Registratie: September 2001
  • Laatst online: 14:35

CT

📱💻 🎮 ⌚🖥

CT schreef op donderdag 21 mei 2026 @ 07:15:
[..] ik haal nu 32tkn/s met qwen-3.6-27b-q8 met een grote context [..]
maak daar maar 50 tk/s van dankzij de nieuwe mtp upgrade in llama.cpp 8)
local inference maakt echt gro(o)t(ere) stappen de laatste tijd dan de grote online providers, maarja, de online providers hebben en zullen altijd de perverse prikkel hebben het slechter te maken, puur vanwege het feit dat ze betaald krijgen per token.. en lokaal wil je juist zoveel mogelijk tokens voor de laagste prijs

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:15

CSB

:D

CT schreef op zaterdag 23 mei 2026 @ 08:04:
[...]

maak daar maar 50 tk/s van dankzij de nieuwe mtp upgrade in llama.cpp 8)
local inference maakt echt gro(o)t(ere) stappen de laatste tijd dan de grote online providers, maarja, de online providers hebben en zullen altijd de perverse prikkel hebben het slechter te maken, puur vanwege het feit dat ze betaald krijgen per token.. en lokaal wil je juist zoveel mogelijk tokens voor de laagste prijs
Ja dat is mooi die ontwikkeling op de lokale LLM's. MTP helpt zeker. Ik wacht nog op de officiele merge van Turboquant in llama.cpp (kan nu ook met een fork, maar wil niet teveel rommelen) dan kan ik mijn context gaan ophogen en gaat het qwen3.6 MoE model van "redelijk werkbaar" naar volledig bruikbaar wat mij betreft.
Ik zat ook te kijken naar Hermes, maar daarvoor heb je modellen nodig die 64K context kunnen verwerken als minimum, en dat trekt mijn RX6650XT-tje niet.

Met zo'n administrator heb je geen users meer nodig...


  • CT
  • Registratie: September 2001
  • Laatst online: 14:35

CT

📱💻 🎮 ⌚🖥

Ja met "veel" VRAM ben je nog nergens, want dat betekend niet dat je een groter model ineens -echt- kan gebruiken, eerder, een wat kleiner model maar wel met maximale context!
Ben nu ook 1 Quant naar beneden gegaan (Q8 -> Q6) op mijn setup, zodat ik 128k context makkelijk haal, met 64k kom je eigenlijk ook net iets te kort als je net lekker bezig ben met "coderen"..
128k redt het tot nu toe net aan per task, en moet dan ook weer ff met een schone beginnen erna. Zit nog wel op 40-50token/s met de dual 3080.


Dit is met Qwen3.6-27b; Tot nu toe ben ik er erg tevreden over, heb nog amper een regel zelf hoeven typen in een project dat ik recent ben begonnen, heb alleen in de planning wat regels code gegeven, als voorbeeld van mijn architectuur en stijl, en dat blijft qwen echt mooi volgen, ik kan de code tot nu toe prima lezen.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CT schreef op zondag 24 mei 2026 @ 12:29:
Ja met "veel" VRAM ben je nog nergens, want dat betekend niet dat je een groter model ineens -echt- kan gebruiken, eerder, een wat kleiner model maar wel met maximale context!
Ik ben wel benieuwd waarom je dat nu precies zegt, want een grotere geheugenruimte maakt wel degelijk een groter model mogelijk. Het is natuurlijk wel zo dat een groter model een grotere verwerkingskracht vereist en dat het met meer I/O nodig heeft als je het over meerdere kaarten verdeelt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CT
  • Registratie: September 2001
  • Laatst online: 14:35

CT

📱💻 🎮 ⌚🖥

ocf81 schreef op maandag 25 mei 2026 @ 10:47:
[...]

Ik ben wel benieuwd waarom je dat nu precies zegt, want een grotere geheugenruimte maakt wel degelijk een groter model mogelijk. Het is natuurlijk wel zo dat een groter model een grotere verwerkingskracht vereist en dat het met meer I/O nodig heeft als je het over meerdere kaarten verdeelt.
wat ik bedoel is dat een model passen in je geheugen 1 ding is, maar het model gebruiken een ander ding (context size) en dat is weer gerelateerd aan de KV cache, dus wil je veel info als input (maw. tijdens coderen veel souce files en andere dingen, zit je snel op 8k tokens..) dan heb je al snel 0.25gb extra nodig bij qwen3.6 27b, maar die 8k is bij een sessie nooit genoeg, 32k enigzins maar dat is al 1GB 64k werkmaar is 2GB en 128k prima te doen is dus een extra 4GB..

Als je dan bijv een.16GB kaart koopt en denkt ik haal het net om mn model te laden, ga je die 4GB nooit erbij krijgen.. dus moet je een model dat past in minder dan 12GB hebben.. maw een kleiner model.

Ik heb nu dus bijv wel 40GB, maar klein deel is al buffer (draai nog een Wayland server) 27GB gaat naar het model (+ wat overhead omdat ik 2 gpu's gebruik, dat telt nooit 100% op) en dan 4GB kv-cache (met overhead) nou dan is het wel vol...

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CT schreef op maandag 25 mei 2026 @ 14:35:
[...]

wat ik bedoel is dat een model passen in je geheugen 1 ding is, maar het model gebruiken een ander ding (context size) en dat is weer gerelateerd aan de KV cache, dus wil je veel info als input (maw. tijdens coderen veel souce files en andere dingen, zit je snel op 8k tokens..) dan heb je al snel 0.25gb extra nodig bij qwen3.6 27b, maar die 8k is bij een sessie nooit genoeg, 32k enigzins maar dat is al 1GB 64k werkmaar is 2GB en 128k prima te doen is dus een extra 4GB..

Als je dan bijv een.16GB kaart koopt en denkt ik haal het net om mn model te laden, ga je die 4GB nooit erbij krijgen.. dus moet je een model dat past in minder dan 12GB hebben.. maw een kleiner model.

Ik heb nu dus bijv wel 40GB, maar klein deel is al buffer (draai nog een Wayland server) 27GB gaat naar het model (+ wat overhead omdat ik 2 gpu's gebruik, dat telt nooit 100% op) en dan 4GB kv-cache (met overhead) nou dan is het wel vol...
Ah, dan snap ik je beter. De context is inderdaad ook en factor van belang. 16GB aan (V)RAM is inderdaad goed genoeg voor ca 14B@Q4 als je een werkbare contextomvang wil hebben. En met zo'n klein model kan je dan weer niet heel veel. Dat is waarom ik nu ook naar vier kaarten met 32GB aan VRAM opschaal. Ik hoop dan zo rond de 90B@Q8 te kunnen draaien.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
De videoselectie van vandaag:

1: Alex Ziskind heeft een mooie vergelijking tussen verschillende kwantisaties van Qwen 3 32B:
Dat je minder nauwkeurige antwoorden krijgt bij lagere kwantisaties was natuurlijk wel bekend, maar deze video illustreert dat wel mooi.

2: bycloud met een video die uitlegt hoe DeepSeek V4 de geheugenbehoefte dramatisch beperkt:

[ Voor 26% gewijzigd door ocf81 op 27-05-2026 23:02 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
@ocf81 mooi filmpje over Deepseek V4. Helaas is de geheugenbehoefte ondanks die nieuwe compressiemethodes nog steeds vrij fors en gaat lokaal draaien op consumentenhardware nog niet helemaal gebeuren :P.

Maar het zijn interessante ontwikkelingen, als dit soort technieken in een Qwen 4.0 komen bijvoorbeeld begint het allemaal echt mooi te worden. @CT ik heb zelf codex gekoppeld aan ollama en geprobeerd een aantal pogingen gedaan als test een vrij stevige fullstack website te laten bouwen (denk aan "bouw de tweakers nieuwspagina en pricewatch na") door zowel 35B als 27B, maar merk dan dat je toch tegen de limieten aan loopt. Bij heel grote opdrachten is het uren wachten om uiteindelijk geen resultaat te krijgen. Kleinere websitejes (spelletje oid) gaat echter al verrassend goed :)

  • CT
  • Registratie: September 2001
  • Laatst online: 14:35

CT

📱💻 🎮 ⌚🖥

DeNachtwacht schreef op donderdag 28 mei 2026 @ 08:43:

[..]@CT ik heb zelf codex gekoppeld aan ollama en geprobeerd een aantal pogingen gedaan als test een vrij stevige fullstack website te laten bouwen (denk aan "bouw de tweakers nieuwspagina en pricewatch na") door zowel 35B als 27B, maar merk dan dat je toch tegen de limieten aan loopt. Bij heel grote opdrachten is het uren wachten om uiteindelijk geen resultaat te krijgen. Kleinere websitejes (spelletje oid) gaat echter al verrassend goed :)
35B model zou ik links laten liggen, die heeft maar 3B active parameters, en de 27B is volledig active geloof ik, dat maakt 'm veel "intelligenter" met name voor coding, alleen alles onder de Q8 (of Q6_XL met qwen3.6) lijkt wel snel dommer te worden.

Verder is het harnass erg belangrijk, heb zelf geen ervaring met Codex, maar lijkt mij opzich wel een capabele Agent? Gebruik nu met veel Zed, die agent pakt het wel goed op. Maar je moet sowieso wel ff wachten uiteraard, 40-50tk/s is niet langzaam maar ook geen premium-opus-snelheid. En wat erg helpt is eerst 'brainstormen' en een soort plan(.md) maken met stappen en wat je kwa structuur verwacht en welke libraries etc. Eigenlijk 'droog' programmeren.

Als je dan tevreden bent over dit (gigantische) plan en dan vraag je gewoon of de agent er aan kan beginnen de implementatie, per stap bijv om de context-size goed in de gaten te houden, dat gaat echt super goed hier iig.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 28 mei 2026 @ 08:43:
@ocf81 mooi filmpje over Deepseek V4. Helaas is de geheugenbehoefte ondanks die nieuwe compressiemethodes nog steeds vrij fors en gaat lokaal draaien op consumentenhardware nog niet helemaal gebeuren :P.

Maar het zijn interessante ontwikkelingen, als dit soort technieken in een Qwen 4.0 komen bijvoorbeeld begint het allemaal echt mooi te worden.
Ik snap niet waarom dat op consumentenhardware niet ook relevant zou kunnen zijn?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
@ocf81 ik snap je reactie niet? Deepseek V4 heeft ook in de flash variant meer dan 250GB VRAM nodig, dat is dus voor lokaal draaien op consumentenhardware totaal niet van toepassing?

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 28 mei 2026 @ 10:00:
@ocf81 ik snap je reactie niet? Deepseek V4 heeft ook in de flash variant meer dan 250GB VRAM nodig, dat is dus voor lokaal draaien op consumentenhardware totaal niet van toepassing?
Ja, dat is voor nu en voor dat specifieke model. Het mechanisme zal, zo neem ik aan, ook beschikbaar komen voor lokaal gedraaide modellen?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Ehm, ja maar precies daar onder zeg ik
Maar het zijn interessante ontwikkelingen, als dit soort technieken in een Qwen 4.0 komen bijvoorbeeld begint het allemaal echt mooi te worden
Dus we zijn het gewoon eens?

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 28 mei 2026 @ 10:04:
Ehm, ja maar precies daar onder zeg ik


[...]

Dus we zijn het gewoon eens?
Uiteindelijk wel, hoewel ik dat in eerste instantie niet zo begreep. Het punt van het noemen van zo'n video in deze discussie is natuurlijk nooit om te suggereren dat we letterlijk DeepSeek V4 lokaal gaan draaien, maar om te kijken waar het heen gaat en wat dat kan betekenen als zo'n techniek eenmaal doorsijpelt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Varkzor
  • Registratie: November 2009
  • Laatst online: 24-06 01:07
CT schreef op donderdag 28 mei 2026 @ 09:37:
[...]

35B model zou ik links laten liggen, die heeft maar 3B active parameters, en de 27B is volledig active geloof ik, dat maakt 'm veel "intelligenter" met name voor coding, alleen alles onder de Q8 (of Q6_XL met qwen3.6) lijkt wel snel dommer te worden.

Verder is het harnass erg belangrijk, heb zelf geen ervaring met Codex, maar lijkt mij opzich wel een capabele Agent? Gebruik nu met veel Zed, die agent pakt het wel goed op. Maar je moet sowieso wel ff wachten uiteraard, 40-50tk/s is niet langzaam maar ook geen premium-opus-snelheid. En wat erg helpt is eerst 'brainstormen' en een soort plan(.md) maken met stappen en wat je kwa structuur verwacht en welke libraries etc. Eigenlijk 'droog' programmeren.

Als je dan tevreden bent over dit (gigantische) plan en dan vraag je gewoon of de agent er aan kan beginnen de implementatie, per stap bijv om de context-size goed in de gaten te houden, dat gaat echt super goed hier iig.
heb je ze zelf al naast elkaar getest?

Ik zit met een RTX 5060ti 16gb en probeer daar de qwen 3.6 35b A3b op omdat een groter model op Q4 er niet op past.

Ik ben zeker geinteresseerd of ik bvb 3.6 27b kan draaie op een RTX 5060ti, iemand ervaring mee?

Verder "hoop" ik alsnog een betaalbare 3090 op de kop te knn tikken, dat geeft toch iets meer opties.

  • CT
  • Registratie: September 2001
  • Laatst online: 14:35

CT

📱💻 🎮 ⌚🖥

Varkzor schreef op vrijdag 29 mei 2026 @ 23:39:
[...]

heb je ze zelf al naast elkaar getest?

Ik zit met een RTX 5060ti 16gb en probeer daar de qwen 3.6 35b A3b op omdat een groter model op Q4 er niet op past. [..]
Heb er geen studie van gemaakt, maar voor coden met lange contexten is 27b (active) echt wel beter dan a(ctive)3b.
Alleen, je moet het dus wel kunnen draaien.. als je de hardware niet hebt, dan zoek je natuurlijk naar 't volgende model dat het maximale uit je systeem kan halen. Dan komt 35b-a3b om de hoek kijken inderdaad en krijg je echt wel veel voor je vram.
Maar, net als dat ik met qwen3.6-27b geen Qwen3-Coder-Next verwacht, kan je met 35b-a3b weer geen 27b verwachten etc.etc.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Qwen 3.6 35B is in nvfp4 24GB, 27B zijn zelfs al versies van 20GB te vinden in nvfp4, dus die is zelfs kleiner. A3b zegt in dit geval niks, omdat het 35B model net als @CT zegt dus werkt met een actief (kleiner) deel, die A3b moet je dus niet verwarren met 3 bit kwantisatie.

Of heb je het model in Q3? Unsloth heeft ook niet kleiner, en dan is het model dus inderdaad net iets groter dan 16GB, dus alsnog te weinig: https://huggingface.co/collections/unsloth/qwen36

Met een 16GB videokaart zal je het in Q2 wel kunnen draaien denk ik (zal pakweg 12GB zijn + 4GB ruimte voor +/- 128K context. Maar zelf kan ik hem nergens in die maat vinden.

  • Martinspire
  • Registratie: Januari 2003
  • Laatst online: 17:42

Martinspire

Awesomeness

Ik vind het zelf ook wel jammer dat er niet meer modellen beter in 16gb passen. Dat is toch wel de mainstream max meestal (voor meer moet je meteen naar de xx80 en xx90 series gaan kijken (en AMD levert daar niks van bv). Wil je je model populair hebben, dan moet je echt met minder geheugen gaan doen. Verder vind ik dat het raar is dat er in de communciatie van modellen nooit echt helder is hoeveel geheugen hij nodig heeft. De xxB zegt lang niet alles. De ene keer kun je 12B niet eens draaien en de andere keer past 20B ineens prima.

Ik mis bij de self-hosted modellen en tools nog een beetje de snelheid die ik met een VSCode Github Copilot wel ervaar en ook de mogelijkheden om snel online te zoeken (vaak gaat dat toch wat minder goed en ik weet niet zo goed hoe ik dat kan verbeteren). Oftewel, ik ben nog zoekende naar de tools en modellen om een deel van de tokens die ik dagelijks gebruik met ontwikkelen, lokaal te kunnen doen en besparen.

Martinspire - PC, PS5, XSX


  • CT
  • Registratie: September 2001
  • Laatst online: 14:35

CT

📱💻 🎮 ⌚🖥

Denk dat dit met name komt omdat:
a. de 'grote' bedrijven 0 reden hebben lokaal makkelijk te maken = minder omzet voor hun en veel reden om 'online' zo makkelijk mogelijk te maken en te ontzorgen
b. het lokale is dus overgeleverd 'aan de community', en dit wordt toch grotendeels gedragen door enthousiastelingen wat betekend at er een soort 'gap' is tussen wat het grote publiek eigenlijk wilt en wat de 'hobbist' graag wilt

Dus je moet eerst die knowledge-gap over om lokale modellen met success te gebruiken.. dan zijn de opties wel unlimited, maar kost dus (veel uitzoek) tijd en ook het nodige geld.

Er zijn wel initiativen zoals https://www.fitllms.com om al die calculaties te doen kwa model fitting, maar dan merk je al dat de parameters eindeloos zijn (mijn configuratie kan ik niet eens instellen op die site, terwijl het naar mijn bubbel-idee toch de meest standaard zou moeten zijn, maar jij denkt daar al anders over (16gb is de standaard) etc. ga dat maar is oplossen 'als hobby' geen bedrijf zijnde).

En dan nog de usecases, chatgpt doet gewoon 'alles' in de frontend (image, audio, code, rag, +websearch etc.)
Maar lokaal kan je er 1 kiezen of elk onderwerp apart aanpakken.. met dezelfde diepgang per onderwerp..
De online grote spelers hebben dit al voor je opgelost en bieden het als een totaal pakketje aan, dit vertekend ook het beeld voor de gemiddelde gebruiker, die nu verslaafd is aan dat alles in 1x kan.

In je geval van copilot en searches zou je naast een LLM (zoals qwen) ook kunnen kijken naar een MCP oplossing (of agent die mcp ondersteund) zoals https://github.com/upstash/context7 dan bereik je denk ik wat je wilt lokaal.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Martinspire schreef op zondag 31 mei 2026 @ 01:04:
Ik mis bij de self-hosted modellen en tools nog een beetje de snelheid die ik met een VSCode Github Copilot wel ervaar en ook de mogelijkheden om snel online te zoeken (vaak gaat dat toch wat minder goed en ik weet niet zo goed hoe ik dat kan verbeteren). Oftewel, ik ben nog zoekende naar de tools en modellen om een deel van de tokens die ik dagelijks gebruik met ontwikkelen, lokaal te kunnen doen en besparen.
Die snelheid kun je alleen benaderen door taalmodellen die (inclusief de benodigde context) in totaal in zijn geheel in het VRAM van de GPU passen. Kies je op een 16GB videokaart voor een 15 GB model, dan zal de context toch al snel met 3 a 4 gb over dat vram gaan en worden geoffload naar je ramgeheugen en daar zit de traagheid: dan gaat het snel factor 20 langzamer.

Vuistregeltje dat wel redelijk werkt is dat je bij het downloaden simpelweg een model kan hebben dat 75% van je vram is, dan is er 25% ruimte voor context. Dus in het geval van een 16GB videokaart kom je dan op taalmodellen van max 12 GB downloaden.

En even een droom verder; voorlopig zijn we er nog echt niet dat lokale modellen in de buurt komen van commerciele modellen. Dat is ook logisch, want de schattingen zijn dat die al snel richting 1 terabyte groot zijn ;). Met lokale modellen kun je nu aardig vibecoden door suggesties van stukjes code te vragen, maar niet complete fullstack sites from scratch opbouwen. Ik heb dat (met de luxe van een RTX 5090 uit de tijd dat hij nog betaalbaar was) zelfs op 32GB vram nog niet succesvol voor elkaar gekregen.

  • savale
  • Registratie: Oktober 2000
  • Laatst online: 25-06 13:19
Had hier nog een dell t5810 met 256gb ddr4 (2400MHz) ram staan van een projectje. Ooit voor 300 euro op de kop weten te tikken. (ram prijs zat toen in een dipje blijkbaar :P) Het leuke is dat die 4 dual RAM channels heeft. CPU is nu 20 core/40 threads xeon 2698v4 en heb er nu 4tb ssd en een 3090 in gestopt en dat is echt wel leuk voor LLM's. Grootste kostenpost is natuurlijk nog wel de GPU...


Heb nu deepseek v4 flash (155GB) draaien met 11 tokens/sec. (zonder gpu 4 tokens/sec) Niet super snel, maar met een agent erbij is dat best bruikbaar. Qwen3.6-27B-Q4_K_M doet ruim 43 tokens/sec. (geen MTP nog)

Verbruik: idle 60 watt, met Qwen aan het werk komt daar ruim 300watt bij voor de GPU. Deepseek een stuk minder omdat daar de GPU niet zo hard werkt. Dan blijft het totaal wel onder de 300 watt.

[ Voor 17% gewijzigd door savale op 01-06-2026 00:01 ]


  • R3m3d7
  • Registratie: Juli 2007
  • Laatst online: 15:05
Dat is gaaf @savale !

Ik ben ook aan het kijken wat ik wil met lokale ai vs cloud, ik heb nu een 5-tal hermes agents aan openai codex hangen en ik heb er de grootste lol mee.

voor agentic coding is snelheid niet belangrijk, voor mij niet iig, en ik zou tekenen voor zn model met die snelheid, erg gaaf.


Hoeveel ts doet hij zonder gpu? Ah, 4 staat in je post

[ Voor 8% gewijzigd door R3m3d7 op 02-06-2026 10:47 ]


  • savale
  • Registratie: Oktober 2000
  • Laatst online: 25-06 13:19
Ja de GPU doet wel iets met deepseek, maar het meeste moet nog wel op de CPU/DDR4 ram... Moet me even wat meer gaan verdiepen in agents, zodat ik programmeertaken over meerdere uren kan laten uitvoeren wat 11 tokens per seconde is te traag om de hele tijd op te wachten. Ik ga met https://opencode.ai/ aan de gang. Kwam dat toevallig hier tegen:

YouTube: Qwen 3.6 vs Gemma 4: I Built the Same App With Both Locally

Doet wel precies wat ik zoek.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb nog een X10DRL-i liggen met 128 GB aan geheugen en twee 2698v4's. Het zat eerst in mijn NAS en was daar eigenlijk overkill voor. (en ook weer niet, want de ST prestaties van de 2698v4 was de reden om die CPU te gebruiken)

Misschien voor de grap toch maar inbouwen in een kast om eens te kijken wat die kan presteren, voordat ik hem wegdoe als tweedehands server :)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • savale
  • Registratie: Oktober 2000
  • Laatst online: 25-06 13:19
ocf81 schreef op dinsdag 2 juni 2026 @ 12:55:
Ik heb nog een X10DRL-i liggen met 128 GB aan geheugen en twee 2698v4's. Het zat eerst in mijn NAS en was daar eigenlijk overkill voor. (en ook weer niet, want de ST prestaties van de 2698v4 was de reden om die CPU te gebruiken)

Misschien voor de grap toch maar inbouwen in een kast om eens te kijken wat die kan presteren, voordat ik hem wegdoe als tweedehands server :)
Belangrijk dat al je geheugenslots vol zitten voor maximale bandbreedte.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
savale schreef op dinsdag 2 juni 2026 @ 13:30:
[...]


Belangrijk dat al je geheugenslots vol zitten voor maximale bandbreedte.
Ja, bandbreedte maximaliseren is natuurlijk altijd belangrijk, en in mijn geval is daar ook aan voldaan. Is het opdelen in twee NUMA-domeinen eigenlijk geen nadeel voor het draaien van LLM's?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
savale schreef op zondag 31 mei 2026 @ 23:46:
Had hier nog een dell t5810 met 256gb ddr4 (2400MHz) ram staan van een projectje. Ooit voor 300 euro op de kop weten te tikken. (ram prijs zat toen in een dipje blijkbaar :P)
Nice! Ja oef ik zat dus ook laatst verbaasd te kijken dat ik nota bene net iets meer dan een jaar geleden 32GB DDR4 erbij kocht voor mijn pc voor... €58. Ik weet nog dat ik toen een beetje twijfelde zal ik niet gewoon 4x 32GB kopen voor €200 en de 2x16GB die ik al heb weer doorverkopen... had ik dat maar gedaan :X .

  • savale
  • Registratie: Oktober 2000
  • Laatst online: 25-06 13:19
ocf81 schreef op dinsdag 2 juni 2026 @ 13:40:
[...]

Ja, bandbreedte maximaliseren is natuurlijk altijd belangrijk, en in mijn geval is daar ook aan voldaan. Is het opdelen in twee NUMA-domeinen eigenlijk geen nadeel voor het draaien van LLM's?
Geen issue dacht ik, maar je kunt denk ik beter je processoren iets omlaag clocken om wat energie te besparen, want RAM bandbreedte gaat je bottleneck zijn. (--numa flag ook gebruiken bij llama.cpp in ieder geval)

[ Voor 5% gewijzigd door savale op 02-06-2026 16:52 ]


  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 11:27
Allen,

Mijn zoon van 15 jaar wil leren programmeren. Ik had in gedachten om een mini pc te voorzien met Hermes agent op en open webui. De connectie naar een LLM zou dan naar de code versie van Qwen gaan.
Voordeel van Hermes is dan het bijhouden van alle gesprekken en webui voor de makkelijke interface en dan Qwen als LLM voor de informatie.

Zie ik nog zaken over het hoofd of kan dit goed werken voor hem ? Hij gaat goed moeten prompten natuurlijk maar daar help ik hem wel bij.

  • savale
  • Registratie: Oktober 2000
  • Laatst online: 25-06 13:19
@Yarisken Snap het niet helemaal, want draai je dan Qwen lokaal? Gaat die mini pc dat trekken?
Verder betwijfel ik of je het beste leert programmeren door met een LLM aan de slag te gaan, maar als je die als een soort "trainingscoach" inzet kan het wel werken.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Nou de vraag is inderdaad vooral of je bedoelt dat je qwen lokaal wil gaan draaien? Ter info ik heb een RTX 5090 icm OpenClaw en Qwen 3.6 27B wat op zich redelijk goed werkt, maar wel supertraag bij grote opdrachten... en als je dat dus op een normale mini pc gaat proberen dan kan je dat supertraag maal factor 20 doen gemiddeld genomen. En dan moet er nog bij worden gezegd dat het werkbaar is, maar alsnog zijn cloudmodellen niet alleen sneller maar ook enorm veel beter voor complexe taken. Voor basale dingen en het leren programmeren moet je wel een eind komen hoor, maar realiseer je ook dat er een grens aan zit.

Als je het lokaal wil doen is een mac mini het beste omdat die voor apple geoptimaliseerde mlx modellen kunnen draaien, dan is het maar 3x trager dan een nivdia gpu.

  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 11:27
savale schreef op dinsdag 9 juni 2026 @ 14:53:
@Yarisken Snap het niet helemaal, want draai je dan Qwen lokaal? Gaat die mini pc dat trekken?
Verder betwijfel ik of je het beste leert programmeren door met een LLM aan de slag te gaan, maar als je die als een soort "trainingscoach" inzet kan het wel werken.
Hey,
Wel ik heb een mini pc met 32GB ram en ik zou dit model willen draaien qwen2.5-coder:3B.
Nog te testen natuurlijk hoeveel tokens er per minuut uitkomen. Het zou vnl zijn om basis python te leren en niet voor heel complexe zaken.

Het is idd meer als trainingcoach te zien en dat Hermes zijn vooruitgang wat kan bijhouden en ook opdrachten kan verzinnen en hem laten uitvoeren.

  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 11:27
DeNachtwacht schreef op dinsdag 9 juni 2026 @ 14:57:
Nou de vraag is inderdaad vooral of je bedoelt dat je qwen lokaal wil gaan draaien? Ter info ik heb een RTX 5090 icm OpenClaw en Qwen 3.6 27B wat op zich redelijk goed werkt, maar wel supertraag bij grote opdrachten... en als je dat dus op een normale mini pc gaat proberen dan kan je dat supertraag maal factor 20 doen gemiddeld genomen. En dan moet er nog bij worden gezegd dat het werkbaar is, maar alsnog zijn cloudmodellen niet alleen sneller maar ook enorm veel beter voor complexe taken. Voor basale dingen en het leren programmeren moet je wel een eind komen hoor, maar realiseer je ook dat er een grens aan zit.

Als je het lokaal wil doen is een mac mini het beste omdat die voor apple geoptimaliseerde mlx modellen kunnen draaien, dan is het maar 3x trager dan een nivdia gpu.
Ik had ook al aan een betalende opus gedacht maar da's via api en als dat wat misloopt zit ik misschien wel met een hele grote afrekening :-).

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Ik kan je vertellen dat het met een zoon van 15 sowieso geen goed idee is want die rekening kan met agents inderdaad zéér hard oplopen. Maar ik snap ook even het nut van Hermes niet? Waarom niet gewoon een basis chatbot die stap voor stap helpt met vragen over programmeren beantwoorden? Een OpenClaw of Hermes is toch helemaal niet bedoeld als persoonlijke assistent, dat kan een chatbot ook al, of mis ik iets wat je hier specifiek mee wil doen?

  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 11:27
DeNachtwacht schreef op dinsdag 9 juni 2026 @ 15:06:
Ik kan je vertellen dat het met een zoon van 15 sowieso geen goed idee is want die rekening kan met agents inderdaad zéér hard oplopen. Maar ik snap ook even het nut van Hermes niet? Waarom niet gewoon een basis chatbot die stap voor stap helpt met vragen over programmeren beantwoorden? Een OpenClaw of Hermes is toch helemaal niet bedoeld als persoonlijke assistent, dat kan een chatbot ook al, of mis ik iets wat je hier specifiek mee wil doen?
Wel, ik ken Hermes alleen van youtube filmpjes voorlopig. Hermes zou vorige conversaties bijhouden en terug makkelijk hierop kunnen verder bouwen.

Stel dat een paar zaken nog wat moeilijk waren voor mijn zoon de vorige conversatie dan zou mijn zoon kunnen vragen "Fris nog is even de zaken op waar ik het vorige keer moeilijk mee had".
Maar kan idd zijn dat dit overkill is. Daarmee dat ik het op dit forum even kom vragen !

Bedankt voor je feedback.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
OpenWebUI kan ook prima gesprekken vastleggen hoor. De agent is er vooral om langlopende taken (semi-)zelfstandig uit te voeren. Zeg maar echt AI voor je aan het werk zetten terwijl je zelf iets anders gaat doen.

Qua hardware is een mini PC niet aan te raden, tenzij deze ervoor gemaakt is. Als je met minder dan vier DDR5 of acht DDR4 geheugenkanalen aan de slag gaat is het met een LLM op de CPU wachten tot je een ons weegt bij modellen die groot genoeg zijn om nuttig te zijn voor programmeerwerk. Wat wellicht nog wel zou kunnen is om zoiets als een Strix HALO met 32GB of meer aan RAM aan het werk te zetten. Eigenlijk wil je dan het liefst 64GB of 128GB, want de 24 die je dan overhebt bij 32 is net aan genoeg om een wat eenvoudiger model te draaien met een redelijke contextomvang. Zoiets als een Framework desktop of GMKTek EVO X2 of Minisforum MS-S1 Max is dan waar je aan moet denken. Deze kan door zijn (voor een CPU relatief snelle) geheugen nog wel enigszins meekomen. En dan nog is de 395+ relatief langzaam. Een GB10 platform is alweer een stuk(je) duurder en net iets rapper, maar heeft wel gelijk 128GB aan RAM aan boord. Wat ook zou kunnen is dat je een oude game pc omkat naar AI server. Het gaat dan vooral om de GPU die je er in zet. Die moet toch wel minstens 16GB aan VRAM aan boord hebben, maar als het even kan meer dan dat. De CPU kan bij een chat nog relatief langzaam zijn zonder in de weg te zitten. De opslag is dan wel weer een dingetje, die wil je zo rap mogelijk hebben om de 8 à 16 GB die een model in beslag neemt zo snel mogelijk te laden bij de eerste aanroep. (de meeste runners houden een model maar voor een beperkte tijd in het geheugen, tenzij je dat in de instellingen aanpast)

Maar buiten dat, het is volgens mij helemaal geen slim plan om met een LLM te leren programmeren. Dan mis je een hele hoop structuur die je moet kennen om de uitvoer die een LLM produceert te kunnen bewaken. En dat bewaken is echt nodig omdat LLM's altijd liegen, maar soms toevallig niet.
Ik zou gewoon met een goed lesboek voor Java o.i.d. beginnen, dan heb je de basis van OOP, wat nog steeds een belangrijke manier van programmeren is en waar ook veel over bekend is. Leren is ook zelf uitzoeken wat werkt, anders blijft het niet hangen.

Overigens zitten we nu midden in de overgang van abonnementen met een tegoed naar afrekenen op basis van gebruik. Als ik kijk naar de aankondigingen en de discussies elders, dan denk ik dat binnen een jaar bijna alle diensten wel geheel over zullen zijn naar dat model. Als dat eenmaal een feit is wordt het lokaal draaien van LLM's opeens heel interessant voor de mensen die nu meer dan het basisabonnement gebruiken.

[ Voor 31% gewijzigd door ocf81 op 09-06-2026 16:14 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Yarisken schreef op dinsdag 9 juni 2026 @ 15:27:
Stel dat een paar zaken nog wat moeilijk waren voor mijn zoon de vorige conversatie dan zou mijn zoon kunnen vragen "Fris nog is even de zaken op waar ik het vorige keer moeilijk mee had".
Maar kan idd zijn dat dit overkill is. Daarmee dat ik het op dit forum even kom vragen !

Bedankt voor je feedback.
Alleen maar goed. Nee hoor, voor dat doel zou ik hem lekker met een eigen account in de browser via gemini, claude of chatgpt aan de slag laten gaan. Alles wat je daarin doet wordt opgeslagen en kan later op worden doorgevraagd. Wel zal je misschien inderdaad richting een betaald abonnement gaan, maar je kan altijd beginnen met kijken hoe ver je komt. Belangrijk is ook dat je dus niet moet toestaan dat de AI allemaal dingen voor hem programmeert, want dat loopt a) flink in de kosten en b) leer je daar de basis natuurlijk minder van.

Realiseer je ook dat je snel €800-1000 verder bent voordat je een mac mini hebt gekocht die voldoende capabel is om met lokale taalmodellen aan de slag te gaan, en daarbij geldt dan:
- lokale modellen zijn nog steeds lang zo goed niet als cloudmodellen
- €1000 is twee jaar lang een AI cloud abonnement of zelfs langer ;)

[ Voor 8% gewijzigd door DeNachtwacht op 09-06-2026 16:21 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op dinsdag 9 juni 2026 @ 16:20:
<knip>

Realiseer je ook dat je snel €800-1000 verder bent voordat je een mac mini hebt gekocht die voldoende capabel is om met lokale taalmodellen aan de slag te gaan, en daarbij geldt dan:
- lokale modellen zijn nog steeds lang zo goed niet als cloudmodellen
- €1000 is twee jaar lang een AI cloud abonnement of zelfs langer ;)
Of een model een beetje presteert ligt dus voor een groot deel aan de hoeveelheid parameters en de kwantisatie van de parameters van een model, zoals ook duidelijk wordt uit de video van Alex Ziskind die ik een paar weken geleden hier de revue heb laten passeren. Toegegeven, om écht iets met lokale AI te doen, dus meer dan een vertaling of een stukje code afmaken met een niet al te grote context, begint het bij ca. €5000. Dat is eigenlijk alleen interessant als je er ook serieus werk mee gaat doen. Maar binnenkort wordt dat een stuk interessanter. De meeste aanbieders moeten binnenkort ook echt geld gaan vragen voor het gebruik, omdat het kapitaal om dat te subsidiëren op aan het raken is.

edit:
Dit is wat je voor ca. €5k kan krijgen wat redelijk zou presteren, denk ik
#CategorieProductPrijsSubtotaal
1ProcessorsAMD Ryzen 7 9700X Boxed€ 269,90€ 269,90
1MoederbordenASUS ProArt B850-CREATOR WIFI NEO€ 252,01€ 252,01
2VideokaartenASRock AMD Radeon AI PRO R9700 Creator 32GB€ 1.470,15€ 2.940,30
1BehuizingenChieftec Night Hunter€ 47,80€ 47,80
1ProcessorkoelingNoctua NH-D12L€ 91,55€ 91,55
2Geheugen internKingston Fury Beast KF556C40BB-32€ 341,52€ 683,04
1Kvm-switchesJetKVM€ 125,-€ 125,-
1VoedingenFSP Hydro PTM PRO 1650W ATX3.0(12V-2x6)€ 244,05€ 244,05
1Interne ssd'sLexar NM790 (zonder heatsink) 4TB€ 347,65€ 347,65
Totaal€ 5.001,30
De snelheid zal door de beperkte PCI-e bandbreedte enigszins beperkt zijn, maar het is alsnog sneller dan een GB10/Spark doosje of een Strix Halo doosje. Hier kan je een inschatting maken wat je kan draaien en hoe snel het zal zijn.

Voetnoten:
1 - Wellicht lijkt dit moederbord in eerste instantie wellicht te zwaar voor de taak. Het blijkt echter dat verschillende B850 en X870 moederborden geen echte dubbele achtbaans PCI-e 5.0 sloten kunnen aanbieden. Dit is het goedkoopste moederbord dat dit wel lijkt te kunnen.
2. De JetKVM is er om het ding op afstand aan te kunnen sturen.

[ Voor 64% gewijzigd door ocf81 op 09-06-2026 19:23 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Nog een interessante video die ik recent tegen kwam:

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Ruitenwisser
  • Registratie: April 2025
  • Laatst online: 25-06 09:48
Ik ben bezig met Ollama en OpenWebUI te installeren in LXC containers op een Proxmox host met 2 RTX3060's (24GB in totaal). Indien gewild kan ik wel bepaalde zaken testen. Aangezien het mijn eerste stappen zijn in het lokaal draaien van een LLM lijkt me dit ook wel tof om bij te leren.

Verder ben ik ook een repo tegengekomen met tal van info voor het draaien van agents. Misschien wordt dit ook geapprecieerd.

https://github.com/walkinglabs/awesome-harness-engineering

  • R3m3d7
  • Registratie: Juli 2007
  • Laatst online: 15:05
Ik zit te kijken naar een 192GB workststion maar 1000 euro voelt toch heftig voor een redelijk oude bak, zou me ook rond de 300 euro per jaar aan stroom kosten als ik hem 24/7 laat draaien. Maar als je wat grotere modellen wil dtaaien is het zoiets, een 2,5k strix halo een nog duurdere mac of nog weer duurdere gpu oplossing. Ik kan het wel betalen maar iets houd me tegen.

  • KL643
  • Registratie: April 2005
  • Laatst online: 18:19

KL643

beeldaandemuur

R3m3d7 schreef op donderdag 11 juni 2026 @ 19:46:
Ik kan het wel betalen maar iets houd me tegen.
Je gezond verstand? :+

beeldaandemuur


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
R3m3d7 schreef op donderdag 11 juni 2026 @ 19:46:
Ik zit te kijken naar een 192GB workststion maar 1000 euro voelt toch heftig voor een redelijk oude bak, zou me ook rond de 300 euro per jaar aan stroom kosten als ik hem 24/7 laat draaien. Maar als je wat grotere modellen wil dtaaien is het zoiets, een 2,5k strix halo een nog duurdere mac of nog weer duurdere gpu oplossing. Ik kan het wel betalen maar iets houd me tegen.
Laten we eens beginnen bij het doel :). Wat wil je ermee gaan doen? Want over het algemeen is 192GB een geheugenaantal dat nou niet bepaald vaak nodig is als je opensource modellen wil draaien. met 128GB kun je de grootste "consumenten" modellen wel draaien (90-100GB voor het model en dan nog wat ruimte voor context). Vaak is het zelfs minder (GPT-OSS en Deepseek zitten beide rond 70GB volgens mij). Ik ken zelf iig weinig opensource modellen die 150GB groot zijn.

  • Martinspire
  • Registratie: Januari 2003
  • Laatst online: 17:42

Martinspire

Awesomeness

ocf81 schreef op dinsdag 9 juni 2026 @ 15:33:
OpenWebUI kan ook prima gesprekken vastleggen hoor. De agent is er vooral om langlopende taken (semi-)zelfstandig uit te voeren. Zeg maar echt AI voor je aan het werk zetten terwijl je zelf iets anders gaat doen.

Qua hardware is een mini PC niet aan te raden, tenzij deze ervoor gemaakt is. Als je met minder dan vier DDR5 of acht DDR4 geheugenkanalen aan de slag gaat is het met een LLM op de CPU wachten tot je een ons weegt bij modellen die groot genoeg zijn om nuttig te zijn voor programmeerwerk. Wat wellicht nog wel zou kunnen is om zoiets als een Strix HALO met 32GB of meer aan RAM aan het werk te zetten. Eigenlijk wil je dan het liefst 64GB of 128GB, want de 24 die je dan overhebt bij 32 is net aan genoeg om een wat eenvoudiger model te draaien met een redelijke contextomvang. Zoiets als een Framework desktop of GMKTek EVO X2 of Minisforum MS-S1 Max is dan waar je aan moet denken. Deze kan door zijn (voor een CPU relatief snelle) geheugen nog wel enigszins meekomen. En dan nog is de 395+ relatief langzaam. Een GB10 platform is alweer een stuk(je) duurder en net iets rapper, maar heeft wel gelijk 128GB aan RAM aan boord. Wat ook zou kunnen is dat je een oude game pc omkat naar AI server. Het gaat dan vooral om de GPU die je er in zet. Die moet toch wel minstens 16GB aan VRAM aan boord hebben, maar als het even kan meer dan dat. De CPU kan bij een chat nog relatief langzaam zijn zonder in de weg te zitten. De opslag is dan wel weer een dingetje, die wil je zo rap mogelijk hebben om de 8 à 16 GB die een model in beslag neemt zo snel mogelijk te laden bij de eerste aanroep. (de meeste runners houden een model maar voor een beperkte tijd in het geheugen, tenzij je dat in de instellingen aanpast)

Maar buiten dat, het is volgens mij helemaal geen slim plan om met een LLM te leren programmeren. Dan mis je een hele hoop structuur die je moet kennen om de uitvoer die een LLM produceert te kunnen bewaken. En dat bewaken is echt nodig omdat LLM's altijd liegen, maar soms toevallig niet.
Ik zou gewoon met een goed lesboek voor Java o.i.d. beginnen, dan heb je de basis van OOP, wat nog steeds een belangrijke manier van programmeren is en waar ook veel over bekend is. Leren is ook zelf uitzoeken wat werkt, anders blijft het niet hangen.

Overigens zitten we nu midden in de overgang van abonnementen met een tegoed naar afrekenen op basis van gebruik. Als ik kijk naar de aankondigingen en de discussies elders, dan denk ik dat binnen een jaar bijna alle diensten wel geheel over zullen zijn naar dat model. Als dat eenmaal een feit is wordt het lokaal draaien van LLM's opeens heel interessant voor de mensen die nu meer dan het basisabonnement gebruiken.
Mja ik heb dus een 16GB kaart, maar de rest van mijn systeem is verder wel snel zat en voor wat proberen is het prima om wat LLMs te draaien, maar voor serieuze zaken is het gewoon nog lang niet voldoende. En CPU+RAM is gewoon niet snel genoeg, dan zit je inderdaad te lang te wachten (en is het alleen snelheidswinst als ie niet zozeer data hoeft te verwerken, maar vooral automatisch wat dingen moet opstarten). Meer ChatGPT 2.0 dan de huidige modellen, zeg maar. Veel fouten ook en niet altijd even slim om dingen te doen.

En ik vraag mij af of je met 16GB kaarten eigenlijk nog wel wat leuks kunt gaan doen. En als je echt serieus aan het werk wilt, is 32GB eigenlijk ook niet voldoende, 64 straks ook niet als je met Agents aan de slag wilt gaan. Dus 128GB is "where its at" voor thuismodellen, maar die hardware is nu nog gewoon veel te duur om het nog een beetje rendabel te maken. Dat heeft echt tijd nodig. Al verwacht ik, nu dat die modellen allemaal super duur aan het worden zijn (Github Copilot is dus deze maand over naar een andere rekenmethode en dus 4x zo duur als voorheen. Dus je zit nu op het punt dat lokaal nog net niet lekker is om echt een goed model te vervangen, maar de prijzen nu al net te duur worden om daarop te wachten.

Martinspire - PC, PS5, XSX


  • R3m3d7
  • Registratie: Juli 2007
  • Laatst online: 15:05
Haha, probably!

  • R3m3d7
  • Registratie: Juli 2007
  • Laatst online: 15:05
DeNachtwacht schreef op donderdag 11 juni 2026 @ 21:55:
[...]

Laten we eens beginnen bij het doel :). Wat wil je ermee gaan doen? Want over het algemeen is 192GB een geheugenaantal dat nou niet bepaald vaak nodig is als je opensource modellen wil draaien. met 128GB kun je de grootste "consumenten" modellen wel draaien (90-100GB voor het model en dan nog wat ruimte voor context). Vaak is het zelfs minder (GPT-OSS en Deepseek zitten beide rond 70GB volgens mij). Ik ken zelf iig weinig opensource modellen die 150GB groot zijn.
Ik wil het voor agentic vibe coding op de achtergrond gebruiken met het grootste model wat erop wil draaien. Ik wil een frontier model een vibe code project PM laten spelen en een lokaal modal kleine brokjes werk geven en laten uitvoeren en controleren. Er zit een groot gat tussen wat kostentechnisch reeel is met gpu’s en dit soort oplossing en dan heb je nog de halo strix die er een beetje tussenin zit maar inmiddels ook 2500 euro kost. Het is tevens een hobby project voor mij en mijn zoon, we willen het beide gaan gebruiken.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
R3m3d7 schreef op vrijdag 12 juni 2026 @ 06:48:
[...]

Ik wil het voor agentic vibe coding op de achtergrond gebruiken met het grootste model wat erop wil draaien.
Ik doe dat nu hier met Gemma 4 en Qwen 3.6, dat zijn momenteel modellen die maximaal 20GB (Gemma 4 - 31B) en 24GB (Qwen 3.6 - 35B) zijn. Daar komt dan nog wat (4-5 GB) bij voor context, maar pakweg 32GB is daarvoor genoeg om te hebben. De echt grote opensource modellen als Deepseek-V3 was 400GB groot, maar tegenwoordig wordt dat al niet meer uitgebracht (V4 is alleen een cloud model). De reden laat zich raden; het wordt te goed en dan kun je zelf professioneel geld gaan verdienen met een model dat je gratis download.

Ook naar de toekomst toe is dus niet te verwachten dat er nog heel veel 32+GB modellen uit zullen komen: consumenten gebruiken dat niet en wat je daarmee na heel veel uren trainen van je model feitelijk doet als "llm bedrijf" is jouw model gratis weg gaan geven aan bedrijven die er ongetwijfeld zelf geld mee willen gaan verdienen. Zo gaat de zon niet helemaal op ;) .

Ik zou zelf een setup met de uitvoering: Intel Arc Pro B70 Graphics eens uit gaan zoeken, die biedt relatief betaalbaar 32GB Vram. Met normaal ramgeheugen lijkt het heel fijn dat je 192GB hebt, maar vergeet niet dat DDR5 een factor 20 (!) langzamer is dan een nvidia videokaart voor LLM's. Nu zal deze Arc van intel minder snel zijn, en je moet ook even meer instellen voordat je hem werkend hebt met llama.cp, maar het is alsnog fors sneller dan met regulider DDR5 geheugen. Een alternatief kan een mac mini zijn die je met 48GB ram kan kopen voor €2044. Die kun je eventueel als cloud server draaien zodat je eigen pc er verbinding mee kan maken. Apple Unified Memory is namelijk "maar" 3x trager dan op een nvidia videokaart draaien met het MLX formaat, maar heeft wel weer andere voordelen omdat het meer een industriestandaard is dan de intel Arc kaarten.

Maar naar 192GB ram gaan zie ik zelf geen voordeel van, ik ken geen enkel opensource taalmodel wat daar voordeel van zou kunnen hebben.

  • R3m3d7
  • Registratie: Juli 2007
  • Laatst online: 15:05
@DeNachtwacht Thanks. Ik lees veel tegenstrijdige verhalen over het nut van >100GB (V)RAM voor dit soort activiteiten, het is lastig omdat ik vermoed dat een klein verschil in workflow een flinke impact kan hebben op de kwaliteit van het llm dat je ervoor inzet. Ik wil zelf niet programmeren maar een heel goed uitgewerkt document met wat ik wil laten bouwen "inleveren" bij de OpenAI Agent die vervolgens dit voor lokale agents in stukken gaat hakken en deze aan het werk zet. De snelheid is dan ook niet zo belangrijk maar ik heb eigenlijk meer interesse in iets wat ik de tokens/kwh zou willen noemen icm met de tokens/euro op aanschaf Als een workstation er 20x zo lang over doet betekend dat niet perse dat hij 20x zoveel kwh gebruikt om het geheel uit te voeren maar ik vermoed wel dat GPU's minder energie verbruiken voor het uitvoeren van een taak een CPU, ik weet alleen niet of dat verschil zo groot is dat het de kosten compenseert. En dan is de snelhei natuurlijk een ding, het maakt mij niet uit of een taak 1 uur duurt of 5 maar 20 uur is wel een dingetje. :-) Ik zeg het niet snel maar de goede LLM's icm agents voelen als het begin van een nieuw tijdperk. Ik heb een Hermes agent die mijn proxmox lab onderhoud en dan beter doet dan ik ooit zou kunnen, om de risico's te beperken schrijft hij backups naar een omgeving waar de agent niet bij kan, zo is de impact nooit groter dan wat downtime, een reinstall en wat restores. Ik was al jaren onder de indruk van de grote LLM's maar wanneer je ze handen geeft en toegang tot dingen kan je de echte kracht ervan ervaren.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
@R3m3d7 maar welke grote taalmodellen zou je dan willen gebruiken? Ik ben natuurlijk nooit diep in 100GB+ gedoken omdat dat voor videokaarten onbetaalbaar is (en nu ook voor regulier ram :P) maar na wat zoeken kom ik ook echt niks tegen wat erin zou kunnen draaien.

  • zx9r_mario
  • Registratie: Oktober 2004
  • Laatst online: 14:59
Over een ouwe bak gesproken: Ik heb een I7 4th gen met een AMD RX580 8GB videokaart. LM Studio (op Ubuntu 26.04) haalt met google/gemma-4-e4b (full offloaded in GPU) ca 20-25 tokens/sec :9

[ Voor 6% gewijzigd door zx9r_mario op 12-06-2026 10:40 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
@Martinspire Ik heb mijn 128 GB machine wel gebouwd maar nog niet ingericht. Er zijn wat andere zaken die tijdsgebonden zijn die nu eerst moeten worden gedaan. Als ik weet hoe 128GB presteert zal ik dat hier gelijk laten weten.

@DeNachtwacht Ik zou de B70 links laten liggen. De Radeon Pro AI 9700 heeft met afstand betere softwareondersteuning en komt daardoor veel beter uit de verf. Zie ook deze discussie op Level1Techs. Ik had er zelf ook bijna voor gekozen, maar de hoofdpijn leek mij de korting niet waard. Als het om de omvang van modellen gaat, dan is https://apxml.com/tools/vram-calculator wellicht handig om in te schatten wanneer meer dan 100GB handig wordt. De context blijkt een echte geheugenvreter en een context van 64K is bij Qwen 32B al bijna even groot als de gewichten van het model, als je de activaties meeneemt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
@ocf81 dank voor delen van die link, handig!

  • Chadi
  • Registratie: September 2001
  • Laatst online: 24-06 16:47
Voor een project waarbij je pdf documenten inleest en daar context aan geeft wil ik onderzoeken welke hardware voldoende is om het te draaien. De gegevens zijn erg gevoelige gegevens waardoor ze niet naar anderen gestuurd kunnen worden. Heb het getest met gemini en dat werkte trouwens prima met de test data.


Ik ben vrij nieuw en via chat gpt werd ik gewezen op Mistral icm met een 3090. Er worden ongeveer 10 pdf per uur verwerkt en de verwachting is dat de gebruiker bereid is om een halve minuut te wachten.

Kan ik de nodige info ergens vinden is kan iemand met mij meedenken hierin?

  • Ruitenwisser
  • Registratie: April 2025
  • Laatst online: 25-06 09:48
In mijn zoektocht ben ik deze repo tegengekomen

https://github.com/msb-msb/awesome-local-ai

Waar je dan deze link kan terugvinden bij 'by usecase'
https://insiderllm.com/guides/best-local-llms-summarization/

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Het lastige met dit soort sites is dat ontwikkelingen razendsnel gaan. Dit artikel prijst Qwen 2.5 aan en je leest over Gemma 3, inmiddels is Qwen 3.6 al twee maanden uit en Gemma 4 ook ;).

@Chadi wat bedoel je "en daar context aan geeft."? Het helpt als je iets duidelijker uitlegt wat je precies met die pdf's wil doen, en ook hoe groot ze zijn (2-3 A4? pdf's van boeken van 400 pagina's?).

  • R3m3d7
  • Registratie: Juli 2007
  • Laatst online: 15:05
DeNachtwacht schreef op vrijdag 12 juni 2026 @ 10:23:
@R3m3d7 maar welke grote taalmodellen zou je dan willen gebruiken? Ik ben natuurlijk nooit diep in 100GB+ gedoken omdat dat voor videokaarten onbetaalbaar is (en nu ook voor regulier ram :P) maar na wat zoeken kom ik ook echt niks tegen wat erin zou kunnen draaien.
Ik geef meteen toe dat het deels komt door wat ik op reddit lees waarbij mensen zoekende zijn en de adviezen ook alle kanten op gaan en deels het gevoel dat als ik dan iets lokaals ga bouwen niet binnen een maand tegen de grenzen van wat ik heb gekocht wil aanlopen en dus kosten en kwaliteit ver boven snelheid heb staan. De agent waar ik mee communiceer hangt aan openai via codex, de agent die het werk gaat doen doet dit op de achtergrond en prompt processing en het exacte aantal tps kan mij niet zoveel schelen (binnen bepaalde grensen natuurlijk). Maar ik geef meteen toe dat ik er nog maar weinig verstand van heb.

Ik denk dat voor mij de beste manier is om via openrouter de kleinere modellen die ik op een bepaalde configuratie kan draaien uitproberen om te zien of ik tegen de grenzen van die modellen aan ga lopen en of die grenzen een probleem zijn voor wat ik wil bouwen.

Ik moet zeggen dat ik zeer onder de indruk ben van gpt 5.5, ook de hoeveelheid die je kan besteden elke week voor die 25? euro per maand, het probleem ermee is dat ik genoeg ervaring heb met dit soort subscriptions dat ik weet dat deze 25 euro per maand over 5 jaar zomaar 80 euro per maand kan zijn. En daar probeer ik mij op voor te bereiden. Daarbij wil ik veel meer tokens gaan verbranden dan ik nu doe dus waar die 25 euro per maand nu nog genoeg is zal dat over een half jaar niet meer zo zijn.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Het simpele antwoord is helaas dat Claude / GPT 5.5 etc gewoon super veel sterker zijn dan wat je ooit lokaal kan draaien. Ik heb net Perplexity eens gevraagd op basis van de schattingen die wel bekend zijn van het aantal parameters dat GPT 5.5 heeft, een schatting te maken hoe groot het model moet zijn. Het antwoord is "waarschijnlijk rond de 4.7 - 5.0 terabyte grootte."

Kortom, zelfs met een 192GB model dat supertraag in het ram draait (als het model uberhaupt al zou bestaan) zou je alsnog een fractie van de capaciteit van GPT 5.5 hebben.

Je kan tegenwoordig met Gemma 4 en Qwen 3.6 met een 32GB VRAM videokaart best leuke dingen doen in NVFP4 kwantisatie, als je écht deze modellen to the max wil gebruiken kun je nog kiezen voor een 128GB setup zodat je de volledige FP16 kwantisatie kan draaien lezen we net op dat handige linkje van @ocf81 . Maar goed, dan heb je het met de huidige prijzen dus al snel over een investering van €3000. Ik zou in jouw geval toch echt nog even doorgaan tot de markt wat meer uitgekristalliseerd is, over een jaar is al veel duidelijker hoe de verhoudingen gaan liggen. Bovendien is de afgelopen 4 jaar de token prijs juist afgenomen met 99,7% door alle optimalisaties, dus dat het allemaal automatisch duurder moet gaan worden zou ik niet direct vanuit gaan. Er zijn tegenwooridg ook nog een hoop ontwikkelkosten die het duur maken, en die later wegvallen.

  • ZpAz
  • Registratie: September 2005
  • Nu online
DeNachtwacht schreef op vrijdag 12 juni 2026 @ 17:27:
Het simpele antwoord is helaas dat Claude / GPT 5.5 etc gewoon super veel sterker zijn dan wat je ooit lokaal kan draaien. Ik heb net Perplexity eens gevraagd op basis van de schattingen die wel bekend zijn van het aantal parameters dat GPT 5.5 heeft, een schatting te maken hoe groot het model moet zijn. Het antwoord is "waarschijnlijk rond de 4.7 - 5.0 terabyte grootte.

Kortom, zelfs met een 192GB model dat supertraag in het ram draait (als het model uberhaupt al zou bestaan) zou je alsnog een fractie van de capaciteit van GPT 5.5 hebben.
Het geheugengebruik gaat wel harder omhoog dan de kwaliteit. Bijvoorbeeld Fable 5 is dubbel zo duur om te draaien als Opus 4.8 - dus er zal wel een flink stuk meer hardware tegenaangegooid worden, maar hij scoort zeker niet het dubbele in alle benchmarks.

Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
@ZpAz je noemt nu 1 incidenteel voorbeeld, en natuurlijk zie je af en toe dat als iets substantieel beter is dat het dan ook weer duurder wordt. Maar feit is dat gemiddeld genomen (zoals ik net ook al zei) sinds GPT 3 de kosten per token al gedaald zijn met 99,7%.

Die dalende trend gaat echt nog wel even door, AI kan heel veel basistaken gewoon ook veel beter dan 2-3 jaar geleden.

[ Voor 14% gewijzigd door DeNachtwacht op 12-06-2026 17:57 ]


  • ZpAz
  • Registratie: September 2005
  • Nu online
DeNachtwacht schreef op vrijdag 12 juni 2026 @ 17:56:
@ZpAz je noemt nu 1 incidenteel voorbeeld, en natuurlijk zie je af en toe dat als iets substantieel beter is dat het dan ook weer duurder wordt. Maar feit is dat gemiddeld genomen (zoals ik net ook al zei) sinds GPT 3 de kosten per token al gedaald zijn met 99,7%.

Die dalende trend gaat echt nog wel even door, AI kan heel veel basistaken gewoon ook veel beter dan 2-3 jaar geleden.
Ik denk dat we hetzelfde zeggen eigenlijk. De frontier modellen zijn duur, en als je iets minder betaalt of zelfs de helft of minder, heb je niet de helft van de kracht. E.g. prijs voor de laatste paar 'procenten' is relatief veel duurder. Hetzelfde voor de hardware die je nodig hebt.

Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF


  • R3m3d7
  • Registratie: Juli 2007
  • Laatst online: 15:05
DeNachtwacht schreef op vrijdag 12 juni 2026 @ 17:27:
Het simpele antwoord is helaas dat Claude / GPT 5.5 etc gewoon super veel sterker zijn dan wat je ooit lokaal kan draaien. Ik heb net Perplexity eens gevraagd op basis van de schattingen die wel bekend zijn van het aantal parameters dat GPT 5.5 heeft, een schatting te maken hoe groot het model moet zijn. Het antwoord is "waarschijnlijk rond de 4.7 - 5.0 terabyte grootte.

Kortom, zelfs met een 192GB model dat supertraag in het ram draait (als het model uberhaupt al zou bestaan) zou je alsnog een fractie van de capaciteit van GPT 5.5 hebben.

Je kan tegenwoordig met Gemma 4 en Qwen 3.6 met een 32GB VRAM videokaart best leuke dingen doen in NVFP4 kwantisatie, als je écht deze modellen to the max wil gebruiken kun je nog kiezen voor een 128GB setup zodat je de volledige FP16 kwantisatie kan draaien lezen we net op dat handige linkje van @ocf81 . Maar goed, dan heb je het met de huidige prijzen dus al snel over een investering van €3000. Ik zou in jouw geval toch echt nog even doorgaan tot de markt wat meer uitgekristalliseerd is, over een jaar is al veel duidelijker hoe de verhoudingen gaan liggen. Bovendien is de afgelopen 4 jaar de token prijs juist afgenomen met 99,7% door alle optimalisaties, dus dat het allemaal automatisch duurder moet gaan worden zou ik niet direct vanuit gaan. Er zijn tegenwooridg ook nog een hoop ontwikkelkosten die het duur maken, en die later wegvallen.
Dat snap ik, ik verwacht ook geen claude te gaan draaien thuis, het is meer dat het lastig is om een gevoel te krijgen van waar de grensen liggen en hoe die je gaan raken.

Ik denk dat je het (lokaal draaien) op dit moment niet hoeft te doen om te geld te besparen behalve als je echt enorm veel gebruikt, zeker als je ziet tegen wat voor kosten je minimax of deep seek via openrouter kan draaien, maar dan komt voor mij het hobby aspect ook om de hoek kijken en ik mijn zoon hier meer van wil meegeven omdat ik denk dat AI begrijpen en er goed mee overweg kunnen belangrijk is voor de toekomst.

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
ZpAz schreef op vrijdag 12 juni 2026 @ 18:01:
[...]

Ik denk dat we hetzelfde zeggen eigenlijk. De frontier modellen zijn duur, en als je iets minder betaalt of zelfs de helft of minder, heb je niet de helft van de kracht. E.g. prijs voor de laatste paar 'procenten' is relatief veel duurder. Hetzelfde voor de hardware die je nodig hebt.
Mijn punt was dat jij nu één enkel voorbeeld hebt van een model dat overal het nieuws haalde omdat het toevallig naast beter, ook wel duurder werd. Maar zoals in dat linkje te lezen is, is de trend echt anders: tokens worden juist steeds goedkoper. We wíllen alleen er ook steeds meer mee (video genereren, agentic coding etc.).

Maar dat is iets anders ;)

  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
R3m3d7 schreef op vrijdag 12 juni 2026 @ 18:58:
[...]

Dat snap ik, ik verwacht ook geen claude te gaan draaien thuis, het is meer dat het lastig is om een gevoel te krijgen van waar de grensen liggen en hoe die je gaan raken.

Ik denk dat je het (lokaal draaien) op dit moment niet hoeft te doen om te geld te besparen behalve als je echt enorm veel gebruikt, zeker als je ziet tegen wat voor kosten je minimax of deep seek via openrouter kan draaien, maar dan komt voor mij het hobby aspect ook om de hoek kijken en ik mijn zoon hier meer van wil meegeven omdat ik denk dat AI begrijpen en er goed mee overweg kunnen belangrijk is voor de toekomst.
Vergis je niet hoor, ik draai hier dus Qwen 3.6 hier thuis, ik heb de poepmazzel gehad dat ik een RTX 5090 kocht toen die "maar" €2100 kostte. En dit is dan gekoppeld aan Codex, en dan kun je gewoon best redelijk een website vibe coden. En feedback op code lukt ook echt wel. Het is alleen wel trager dan wat je uit de cloud modellen krijgt, en, zoals gezegd, moet je het ook niet te complex maken anders krijg je simpelweg de fouten die je 2 jaar geleden ook uit GPT 4.5 (bijv) kreeg.

  • ZpAz
  • Registratie: September 2005
  • Nu online
DeNachtwacht schreef op vrijdag 12 juni 2026 @ 18:59:
[...]

Mijn punt was dat jij nu één enkel voorbeeld hebt van een model dat overal het nieuws haalde omdat het toevallig naast beter, ook wel duurder werd. Maar zoals in dat linkje te lezen is, is de trend echt anders: tokens worden juist steeds goedkoper. We wíllen alleen er ook steeds meer mee (video genereren, agentic coding etc.).

Maar dat is iets anders ;)
Afbeeldingslocatie: https://tweakers.net/i/d4lBdE4d2krrPtBHFjjmmXMZ78A=/800x/filters:strip_exif()/f/image/opq5jeIl3IbjUeoUodmh9x6J.png?f=fotoalbum_large
Misschien dat de trend recentelijker is omgekeerd, ik gebruikte het niet zoveel in GPT 3 tijd eigenlijk. Maar bouw nu een jaar aan agentic systemen - en tot nu toe was dat wel mijn ervaring dat elke update wat duurder was dan voorheen.

Behalve DeepSeek V4, die bleef permanent op 75% korting staan. Woo.

----

Hier kan je trouwens benchmarked (en ook open source) modellen vergelijken. En ook 'prijs per intelligentie'

[ Voor 21% gewijzigd door ZpAz op 12-06-2026 23:30 ]

Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
ZpAz schreef op vrijdag 12 juni 2026 @ 23:26:
[...]

[Afbeelding]
Misschien dat de trend recentelijker is omgekeerd, ik gebruikte het niet zoveel in GPT 3 tijd eigenlijk. Maar bouw nu een jaar aan agentic systemen - en tot nu toe was dat wel mijn ervaring dat elke update wat duurder was dan voorheen.
Mja, deze bron is ook uit februari 2026 he: https://www.navyaai.com/reports/ai-cost-report-token-prices-vs-ai-bill

Maargoed het is sowieso op dit gebied lastig zoeken wat de feiten zijn; honderden nieuwe websites/bedrijven die allemaal dingen zeggen/claimen op dit gebied en betrouwbaarheid achterhalen is... een uitdaging.

Zo ben ik nu toevallig aan eht kijken of het slim is OpenClaw om te wisselen voor Hermes.. nou youtube zit vol met clickbait overstap filmpjes zoals altijd, maar werkelijk geen één die echt degelijk/betrouwbaar oogt... websites idem dito. Dat is weer het nadeel van die AI wereld je weet nog niet wat de echt goed betrouwbare bronnen zijn.

  • Deepflame
  • Registratie: Juni 2025
  • Laatst online: 23-06 21:06
Ik werk zelf nu al een paar maanden met OpenClaw, eerst met Claude Sonnet/Opus, toen GPT-5.4 toen Anthropic een drama momentje had, en nu zit ik al weer een tijdje primair met GPT-5.5 te werken. Werkt fijn, heb er veel plezier mee en het is erg leerzaam allemaal.

Sinds kort klus ik ook met lokale modellen, heb een Qwen 3.6 27b Q4_K_M draaien met 256k context window op mijn RTX 3090 (24gb) door TurboQuant toe te passen. Ik gebruik daar een fork van llama.cpp voor (een soort van Ollama, maar dan meer performance) van TheTom: https://github.com/TheTom/llama-cpp-turboquant en een assymetrische KV-quant van Turbo4/Turbo3 toe te passen.

Werkt prima, krijg ongeveer 50 tok/s token generation er uit waardoor het best responsive aanvoelt. Maar je moet het niet gebruiken als primaire agentic driver, daar mist het de capaciteit voor. Heb op kantoor ook een Qwen 3.6 27b aan de praat gekregen op een oud server bordje met 4x een GTX 1070 er in. :D

De Chinese open modellen zijn best wel leuk, DeepSeek V4 Flash is ook al verrassend goed, ik zou dat wel als daily driver willen gebruiken, in theorie zou ik dat in 80gb kwijt moeten kunnen, maar ik heb daar de GPUs niet voor. :+

Maar goed, die komen natuurlijk niet in de buurt van de brute kracht van GPT-5.5 en Claude Opus 4.7 en zo. Maar als je een beetje in de loop blijft en de vinger aan de pols houd dan kom je zelfs met Qwen al een heel eind! Het is capabeler dan je denkt. :)
Pagina: 1 2 3 4 Laatste