• CSB
  • Registratie: Juli 2003
  • Laatst online: 20-05 19:04

CSB

:D

Voor de Local LLM enthausiastlingen met beperkte hardware is dit goed nieuws:
TL;DR, tot 6x meer KV cache door deze nieuwe quantization method. Dus veel langere context met kleinere modellen. _/-\o_

Met zo'n administrator heb je geen users meer nodig...


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 21:45
Wat meer achtergrond: https://www.dutchitleaders.nl/news/728196/google-turboquant-de-toekomst-van-supersnel-zoeken

Ik dacht even dat het weer één van de vele clickbait video's was, en dat is het natuurlijk wel een beetje want het zijn vooralsnog theoretische verbeteringen die alleen op een H100 (volgens google) getest zijn met forse snelheids/compressiewinst. Maar het ziet er inderdaad wel indrukwekkend uit, als dat echt enigszins klopt kun je ineens met een 16GB vram kaart behoorlijk serieuze modellen draaien en komt er heel veel moois beschikbaar voor lokale AI :). Maar toch ook wel een kleine pas op de plaats: ze noemen snelheidswinst tot 8x, dus ongetwijfeld is het op heel veel plekken 'maar' een snelheidswinst van 2x o.i.d. Even de conferentie afwachten dus.

[ Voor 12% gewijzigd door DeNachtwacht op 27-03-2026 15:22 ]


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 20-05 19:04

CSB

:D

En hier is BitNet (aanrader om even te kijken):
Overigens, over mijn vorige post Turboquant:
llama-cpp-turboquant-guide Het lukt ze om bijv. op een RTX4070 Mobile GPU (dus 8GB) een context size van 64K te runnen.

Erg interessante tijden gaan we tegemoet voor Local LLM's. :)

[ Voor 36% gewijzigd door CSB op 02-04-2026 15:54 . Reden: turboquant toegevoegd ]

Met zo'n administrator heb je geen users meer nodig...


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 21:45
@CSB zo spectaculair is dat toch niet? Die context length is simpelweg fijn, maar in de basis gaat het natuurlijk om de grootte van het model. In het voorbeeldje van jouw site lees ik dat ze Llama-3.1-8B-Instruct Q4_K_M draaien op een 4070 met 8gb mobile, tsja leuk dat het met wat meer context kan, maar het blijft een vrij basaal model dat in de basis 5GB groot is. Die extra context is aardig, maar gezien alle clickbait flauwekul "turboquant BREAKS NVIDIA", "TurboQuant DROPPED AND KILLS CLOUD AI" had ik toch wel op zijn minst de verwachting dat Turboquant het ook mogelijk zou maken om modellen die groter zijn dan het VRAM te draaien. Dát zou echt revolutionair zijn en werd een beetje beloofd tussen alle sensatie door...

Het volgende clickbait filmpje over een 1B model sla ik dus ook gerust over... ik merk dat het pas enigszins vergelijkbaar wordt met een cloud model als je minimaal 30B / 35B hebt. Als het echt zo goed is, komt het wel op serieuze media voorbij. Merk dat ik al maanden youtube totaal niet meer kijk voor dit soort nieuwtjes want in elk filmpje wordt je schreeuwend beloofd dat je vanaf nú lokaal op je 3Dfx uit 1998 met 1 MB ram zelfs de cloud modellen van ChatGPT van enkele terabytes groot kan draaien... en vervolgens blijkt dat er een kleine tweak aan een LLM of tool is die een paar procent snelheidswinst oplevert ergens. En dat blijkt dan ergens in de laatste minuut van het filmpje waar je al teasend naartoe wordt geschreewd.

[ Voor 38% gewijzigd door DeNachtwacht op 02-04-2026 16:09 ]


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 20-05 19:04

CSB

:D

Tja, dan is het Bitnet filmpje niet voor jou bedoeld denk ik. Ik werd na met name het tweede filmpje waarin hij demonstreert wat een 1-bit bitnet model doet op een M4 mac, wel geïnteresseerd.
Ik zal voortaan de "clickbait filmpjes" achterwege laten, ook al was het goed bedoeld.

Met zo'n administrator heb je geen users meer nodig...


  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
Ik heb voorlopig sowieso even geen interesse meer in lokale AI-modellen.

Het is al moeilijk genoeg om een model in de cloud te laten doen wat je wil, laat staan lokaal waar het model zelf meestal beperkte context en kennis heeft.

Ik vraag het maar eens hier: is het ‘t tot nu toe echt allemaal waard om daar mee te prutsen? Na een uur draait er bij mij lokaal wel wat, maar krijg ik toch een inconsistente gebruikservaring. Of doe ik iets verkeerd?

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 21:45
Op zich kun je best al wel leuke dingen doen hoor, het is alleen wat trager dan online en uiteindelijk ook toch wel altijd minder goed. Toevallig is net het nieuwe Gemma 4 model uitgekomen. Je kan hier zien welk model je kan draaien afhankelijk van je gpu:

https://unsloth.ai/docs/models/gemma-4

Gemma E4B zal je dus op een gpu met 16GB vrij royaal in 8 bit kwantisatie kunnen downloaden en gebruiken. Lekker snel en gebruiksvriendelijk is Ollama: https://ollama.com/library/gemma4

Maar idd is en blijft het vooral interessant voor hobbyisten of juist als je er écht professioneel mee aan de slag wil (met stevige GPU's). Voor gewoon casual met een taalmodel aan de slag is over het algeen een cloud model simpeler en ook fors beter. Wel is het voordeel van lokaal draaien natuurlijk dat je zeker weet dat je data echt binnen je pc blijft.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Mijn AI machine moet eigenlijk eens een opfrisbeurt krijgen. Ik heb de laatste paar maanden er niet zo veel mee gedaan. Wel gedacht aan RAG en agents, maar nooit de stap genomen om daar in te duiken. Wat ik nu heb werkt wel oké voor programmeren en vertalen. Voor kennisvragen gebruik ik de lokale AI niet (meer).

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Gr4mpyC3t schreef op donderdag 2 april 2026 @ 21:03:
Ik heb voorlopig sowieso even geen interesse meer in lokale AI-modellen.

Het is al moeilijk genoeg om een model in de cloud te laten doen wat je wil, laat staan lokaal waar het model zelf meestal beperkte context en kennis heeft.

Ik vraag het maar eens hier: is het ‘t tot nu toe echt allemaal waard om daar mee te prutsen? Na een uur draait er bij mij lokaal wel wat, maar krijg ik toch een inconsistente gebruikservaring. Of doe ik iets verkeerd?
Voor gebruikers vragen heeft het weinig waarde buiten het hobby'en. Voor agentic AI is het heel handig. Als m'n agents allemaal cloud based zouden draaien, had ik iedere maand een kleine 10.000 euro kunnen afrekenen aan token usage. Ik heb twee piepkleine LLM's op mijn werklaptop draaien voor specialistische taken. En een server met een sloot vram voor grotere modellen die voor taak gerichte agentic AI worden gebruikt. Voor het bouwen van automations gebruik ik n8n instances die gebouwd worden met een Claude subscription. En een chatgpt abbo voor vragen.

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 21:45
@Seth_Chaos welke lokale modellen gebruik jij en voor welke agents?

  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
DeNachtwacht schreef op donderdag 9 april 2026 @ 18:09:
@Seth_Chaos welke lokale modellen gebruik jij en voor welke agents?
Qwen en Deepseek op mn server. Voor een orchestrator agent die al mijn agents aan stuurt. Een assistent agent die veel van mijn dagelijkse werkzaamheden heeft overgenomen. Een test agent die al het werk van al mijn agents test na elke actie. En een rits aan agents die in n8n workflows worden aangesproken. En een separate agent die mijn home automation regelt onderhoud en op aanvraag uitbreid. Welke LLM's op mijn laptop draaien weet ik niet meer. 1 gebruik ik om 24/7 mee te luisteren en automatisch ieder gesprek te transscripten en op te slaan in Obsidian. En om acties uit te voeren na een wake woord. De andere wordt gebruikt om alle terug koppeling die mijn orchestrator agent geeft om te zetten naar spraak. Wat heel handig is wanneer je 5 a 6 terminals hebt draaien met verschillende projecten die ieder door de orchastrator worden gemanaged. Ik hoef dus niet al mijn terminals af om te weten hoe het ermee staat en ik kan gesproken antwoorden wanneer mijn archostrator iets vraagt, of wanneer ik iets gedaan wil hebben wanneer ik in een overleg zit om maar wat te noemen kan ik dat via een teams berichtje vragen.

En s' avonds wanneer ik wat beters te doen heb dan werken, laat ik vaak nieuwe projecten uitwerken en of voorbereiden en projecten coden.

En Claude gebruik ik met superpowers en skills. Voornamelijk om het werk van de lokale agents nog eens na te lopen en op te poetsen. En voor wat onderzoek. Ook die wordt aangestuurd door m'n orchastrator.

Ik kan dit ook iedereen aanraden. Begin klein. Neem een Claude account. Start Claude code in een terminal met super powers. Hang het aan een notitie tool zoals Obisidan. Leg je dagelijkse werkzaamheden eens vast in obsidian. Gebruik het gewoon een paar dagen als een soort dagboek. Vraag vervolgens Claude om de obsidian dir te gebruiken als werk folder voor Claude. En vraag eens te analyseren wat je allemaal op een dag doet en waar het denkt bij te kunnen helpen, en of welke werkzaamheden het kan overnemen. Vraag Claude dat in te regelen. Begin met zero trust. Alles wat het wil doen moet het eerst vragen. Wanneer je vertrouwen hebt dat het die taak altijd succesvol volbrengt, ga je een stapje verder en vraag je de taak automatisch uit te voeren met enkel een notificatie wanneer de taak gestart wordt, en een notificatie wanneer de taak is volbracht. En breid dat steeds verder uit, tot je op den duur meerdere agents volledig autonoom hun werk kunt laten doen. Zodra de agents autonoom beginnen te werken, verhuis je ze naar lokale AI, zodat er iets overblijft van je bankrekening (of de bankrekening van je werkgever).

Veel mensen zijn bang dat ze daarmee zichzelf overbodig maken. Maar het tegendeel is waar. Ik heb nog steeds 8 uur werk. Maar in plaats van 8 uur zelf het werk te doen stuur ik een legioen agents aan. Mijn werkgever krijgt er een veelvoud van het werk dat ik voorheen deed voor terug. Ik ben nu dus veel waardevoller voor mijn werkgever dan voorheen. En het is ook veel leuker. Want al het hersen dodende werk dat ik voorheen deed, en alles waar ik nul energie van kreeg heb ik als eerste weg geautomatiseerd.

[ Voor 38% gewijzigd door Seth_Chaos op 09-04-2026 19:17 ]


  • daily.data.inj
  • Registratie: Januari 2019
  • Niet online
Seth_Chaos schreef op donderdag 9 april 2026 @ 18:31:
[...]


Qwen en Deepseek op mn server. Voor een orchestrator agent die al mijn agents aan stuurt. Een assistent agent die veel van mijn dagelijkse werkzaamheden heeft overgenomen. Een test agent die al het werk van al mijn agents test na elke actie. En een rits aan agents die in n8n workflows worden aangesproken. En een separate agent die mijn home automation regelt onderhoud en op aanvraag uitbreid. Welke LLM's op mijn laptop draaien weet ik niet meer. 1 gebruik ik om 24/7 mee te luisteren en automatisch ieder gesprek te transscripten en op te slaan in Obsidian. En om acties uit te voeren na een wake woord. De andere wordt gebruikt om alle terug koppeling die mijn orchestrator agent geeft om te zetten naar spraak. Wat heel handig is wanneer je 5 a 6 terminals hebt draaien met verschillende projecten die ieder door de orchastrator worden gemanaged. Ik hoef dus niet al mijn terminals af om te weten hoe het ermee staat en ik kan gesproken antwoorden wanneer mijn archostrator iets vraagt, of wanneer ik iets gedaan wil hebben wanneer ik in een overleg zit om maar wat te noemen kan ik dat via een teams berichtje vragen.

En s' avonds wanneer ik wat beters te doen heb dan werken, laat ik vaak nieuwe projecten uitwerken en of voorbereiden en projecten coden.

En Claude gebruik ik met superpowers en skills. Voornamelijk om het werk van de lokale agents nog eens na te lopen en op te poetsen. En voor wat onderzoek. Ook die wordt aangestuurd door m'n orchastrator.

Ik kan dit ook iedereen aanraden. Begin klein. Neem een Claude account. Start Claude code in een terminal met super powers. Hang het aan een notitie tool zoals Obisidan. Leg je dagelijkse werkzaamheden eens vast in obsidian. Gebruik het gewoon een paar dagen als een soort dagboek. Vraag vervolgens Claude om de obsidian dir te gebruiken als werk folder voor Claude. En vraag eens te analyseren wat je allemaal op een dag doet en waar het denkt bij te kunnen helpen, en of welke werkzaamheden het kan overnemen. Vraag Claude dat in te regelen. Begin met zero trust. Alles wat het wil doen moet het eerst vragen. Wanneer je vertrouwen hebt dat het die taak altijd succesvol volbrengt, ga je een stapje verder en vraag je de taak automatisch uit te voeren met enkel een notificatie wanneer de taak gestart wordt, en een notificatie wanneer de taak is volbracht. En breid dat steeds verder uit, tot je op den duur meerdere agents volledig autonoom hun werk kunt laten doen. Zodra de agents autonoom beginnen te werken, verhuis je ze naar lokale AI, zodat er iets overblijft van je bankrekening (of de bankrekening van je werkgever).

Veel mensen zijn bang dat ze daarmee zichzelf overbodig maken. Maar het tegendeel is waar. Ik heb nog steeds 8 uur werk. Maar in plaats van 8 uur zelf het werk te doen stuur ik een legioen agents aan. Mijn werkgever krijgt er een veelvoud van het werk dat ik voorheen deed voor terug. Ik ben nu dus veel waardevoller voor mijn werkgever dan voorheen. En het is ook veel leuker. Want al het hersen dodende werk dat ik voorheen deed, en alles waar ik nul energie van kreeg heb ik als eerste weg geautomatiseerd.
Uit nieuwsgierigheid aan wat voor hersendodend werk of taken waar je 0 energie van krijgt moet ik aan denken?

  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Alles administratief, documenteren, tijdschrijven, mail bijhouden, tickets bijwerken, teams communicatie, interne blogs schrijven, presentaties opstellen, mijn agenda bijhouden inclusief het maken van afspraken, project management, trainingen voorbereiden. De complexere beheer taken uitvoeren. Probleem analyses uitvoeren, RFC's opstellen en laten goedkeuren. De changes doorvoeren uit die RFC's. Standaard changes doorvoeren zoals onboarding en offboarding van medewerkers, rechten mutaties, firewalls, switches en accespoints inrichten. Security harding, updaten van netwerk apparatuur. Server herstarts overleggen met de klant, inplannen, uitvoeren en monitoren. Automations ontwerpen, bouwen en opleveren. En ongetwijfeld nog een hoop dat ik vergeet. Alles wat ik meer als één keer precies hetzelfde moet doen wordt geautomatiseerd.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een video over Hermes, een AI agent die je lokaal kan draaien:
Het lijkt me wel interessant om eens uit te proberen.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Trasos
  • Registratie: Juli 2003
  • Niet online
Seth_Chaos schreef op donderdag 9 april 2026 @ 23:28:
Alles administratief, documenteren, tijdschrijven, mail bijhouden, tickets bijwerken, teams communicatie, interne blogs schrijven, presentaties opstellen, mijn agenda bijhouden inclusief het maken van afspraken, project management, trainingen voorbereiden. De complexere beheer taken uitvoeren. Probleem analyses uitvoeren, RFC's opstellen en laten goedkeuren. De changes doorvoeren uit die RFC's. Standaard changes doorvoeren zoals onboarding en offboarding van medewerkers, rechten mutaties, firewalls, switches en accespoints inrichten. Security harding, updaten van netwerk apparatuur. Server herstarts overleggen met de klant, inplannen, uitvoeren en monitoren. Automations ontwerpen, bouwen en opleveren. En ongetwijfeld nog een hoop dat ik vergeet. Alles wat ik meer als één keer precies hetzelfde moet doen wordt geautomatiseerd.
Weten die klanten (en je werkgever) ook dat de server updates en herstarts door AI wordt gedaan?
Ik lees nog iets te vaak "Oeps, Qwen heeft een "rm -rf"-je gedaan..." op Reddit om dat te vertrouwen.

  • i-chat
  • Registratie: Maart 2005
  • Niet online
ik moet heel eerlijk zeggen dat ik ook sceptisch ben om die 1bit modellen maar als je ziet wat het op een m4 kan doen dan zou ik eigenlijk het liefst een nieuwe rasberry pi (of soortgelijke) met een onboard gpu willen zien. hoe dan ook denk ik dat we als het op llm's aankomt we wat meer zouden moeten specialiseren op taak.

als jij iets met coding wilt doen moet je niet een llm heben die de boeken van harry potter heeft geleend. maar als je een email wilt opstellen zou het inlezen van heel veel boeken tijdschriften en kranten juist wél meerwaarde hebben in de data-set.

want laten we eerlijk zijn een 1bit model (liefst getraind op alleen nederlands- en engelstalige data) zou heel handig kunnen zijn voor de allersimpelste taken zoals: een email verzenden, een agenda beheren, je home-assistant aansturen (en dan begrijpen dat: maak het donker, hetzelfde is als doe het licht uit en dat soort saaie troep. eigenlijk spul wat je misschien nu al een gemma 4 e2b zou kunnen laten proberen maar dan met NÓG minder resources.

zo wil ik al een tijdje mijn eigen personal assistent - maar houdt vooralsnog de dure hardware het een beetje tegen. ik hoef geen AI die ingewikkelde dingen kan en zelfs als ik die wél wil zit dat al in mijn office365 account. waarin ik teksten kan laten redigeren ..

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ja, het oude adagium het juiste gereedschap voor de klus gebruiken gaat hier ook op. Gelukkig kan je daar ook gewoon een keuze in maken.. En ik denk dat je er toch niet omheen kan dat je met minimaal 16GB aan VRAM moet werken voordat je überhaupt enigszins bruikbare resultaten gaat zien. Dat lijkt min of meer de ondergrens van het bruikbare. Als het om de toekomst gaat heb ik dan ook meer fiducie in zaken zoals TurboQuant. Wat me dan wel waarschijnlijk lijkt is dat je desondanks toch veel geheugen nodig blijft hebben, want de benutting daarvan gaat door TurboQuant waarschijnlijk alleen maar omhoog.

HA aansturen kan natuurlijk al lokaal, dat had ik ook een tijdje draaien, voordat ik alles overhoop haalde en het nu weer opnieuw moet installeren. Ik moet alleen nog een slimme speaker hebben die dan met HA praat. Het is overigens beter om een relatief klein model (~12B parameters) te draaien voor dat soort dingen, omdat de interpretatie al lang genoeg duurt met zo'n klein model.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Trasos schreef op maandag 4 mei 2026 @ 17:20:
[...]

Weten die klanten (en je werkgever) ook dat de server updates en herstarts door AI wordt gedaan?
Ik lees nog iets te vaak "Oeps, Qwen heeft een "rm -rf"-je gedaan..." op Reddit om dat te vertrouwen.
Yes, daar wordt ik voor betaald.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Hmm, lokale modellen zijn voor programmeren nog best goed te gebruiken, mits van voldoende omvang:

[ Voor 6% gewijzigd door ocf81 op 07-05-2026 21:19 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 21:45
Jaja... is al een tijdje hoor. Qwen 3.5 en Gemma 4 waren hier al best goed in, en Qwen 3.6 is alweer uit die ook weer substantiële sprongen maakt.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 7 mei 2026 @ 23:34:
Jaja... is al een tijdje hoor. Qwen 3.5 en Gemma 4 waren hier al best goed in, en Qwen 3.6 is alweer uit die ook weer substantiële sprongen maakt.
Ik draai zelf geen benchmarks, dus het is wel fijn om dat eens gekwantificeerd te zien :)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • i-chat
  • Registratie: Maart 2005
  • Niet online
[q]HA aansturen kan natuurlijk al lokaal, dat had ik ook een tijdje draaien, voordat ik alles overhoop haalde en het nu weer opnieuw moet installeren. Ik moet alleen nog een slimme speaker hebben die dan met HA praat. Het is overigens beter om een relatief klein model (~12B parameters) te draaien voor dat soort dingen, omdat de interpretatie al lang genoeg duurt met zo'n klein model.[/q] mijn punt is / was dat een model als gema 4 e4b al op iets van 5gb schijnt te draaien. en dat is in beginsel al een multi-lingual audio/text/image model enige jammere aan dat model is dat je geen spraak-output hebt en daar dus nog een apart model voor moet inladen dat maakt het vram gebruik nog weer nét wat hoger.

wat betreft die speaker ben ik het voor 150% met je eens, het is leuk dat er her en der allerlij kickstarters rondgaan voor vervangende printplaatjes voor je google mini met een of andere esp chip en openwakeword erop maar ik wil helemaal geen printplaat is ik een kant-en-klaar product

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een video over een een MI50, de AMD instinct adapter gebaseerd op Vega 20, inclusief mooie vergelijkingen met een AMD R9700 en een AMD Strix HALO:

[ Voor 9% gewijzigd door ocf81 op 09-05-2026 13:24 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • pelican
  • Registratie: Juni 2001
  • Niet online

pelican

 

DeNachtwacht schreef op donderdag 2 april 2026 @ 23:13:

... Wel is het voordeel van lokaal draaien natuurlijk dat je zeker weet dat je data echt binnen je pc blijft.
Is dat echt altijd zo? Als je bijv open-webui gebruikt gaat die dan niet online zoeken en kan dat dan ook niet je content het web op sturen?

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 21:45
pelican schreef op zaterdag 9 mei 2026 @ 13:34:
[...]

Is dat echt altijd zo? Als je bijv open-webui gebruikt gaat die dan niet online zoeken en kan dat dan ook niet je content het web op sturen?
Via web search wordt er natuurlijk online gezocht, maar dat moet je ten eerste zelf aanzetten en ten tweede loopt dat dan dus via ollama zelf. Wel goed trouwens dat je die vraag stelt, want hoe de ollama tool met die privacy omgaat weet ik niet.

Maar het fijne van lokaal dingen stellen is dat je het ook echt weer kwijt bent zodra je naar een nieuwe tool/llm gaat. In chatgpt/copilot/gemini moet je zoveel moeite doen voor verwijderen dat op een gegeven moment privé gegevens toch ergens in de history blijven hangen en bovendien wordt het gebruikt voor trainen van nieuwe modellen. Bij jouw eigen open source model dat je lokaal draait ben je er 100% zeker van dat dat niet gebeurt want dat blijft allemaal op je pc.

[ Voor 7% gewijzigd door DeNachtwacht op 10-05-2026 12:04 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb de machine weer eens flink aan het werk gezet, maar ik merk dat modellen die het geheugen van één kaart ontspringen toch wel relatief langzaam draaien. Vermoedelijk ligt dat aan de beperkte bandbreedte tussen de twee kaarten, omdat het moederbord de kaarten op acht banen PCI-e 4.0 laat draaien. Ik overweeg om dan maar een Threadripper systeem te bouwen. Als ik de heb ik nog wel acht reepjes van 32GB DDR4, waardoor ik dan alleen een CPU en een moederbord zou hoeven kopen. Voor de generatie kaarten die ik nu gebruik (W6800 / RDNA2) is PCI-e 4.0 goed genoeg, maar als ik de kaarten opwaardeer naar iets nieuwers zal dat dan weer een beperking vormen en de restwaarde zal vermoedelijk gering zijn. Als ik voor een DDR5 systeem ga ben ik aan de beurt als het om de aanschaf van geheugen gaat, maar dan kan ik wel langer door met het moederbord. Wat zouden jullie doen?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
ocf81 schreef op vrijdag 15 mei 2026 @ 16:45:
Ik heb de machine weer eens flink aan het werk gezet, maar ik merk dat modellen die het geheugen van één kaart ontspringen toch wel relatief langzaam draaien. Vermoedelijk ligt dat aan de beperkte bandbreedte tussen de twee kaarten, omdat het moederbord de kaarten op acht banen PCI-e 4.0 laat draaien. Ik overweeg om dan maar een Threadripper systeem te bouwen. Als ik de heb ik nog wel acht reepjes van 32GB DDR4, waardoor ik dan alleen een CPU en een moederbord zou hoeven kopen. Voor de generatie kaarten die ik nu gebruik (W6800 / RDNA2) is PCI-e 4.0 goed genoeg, maar als ik de kaarten opwaardeer naar iets nieuwers zal dat dan weer een beperking vormen en de restwaarde zal vermoedelijk gering zijn. Als ik voor een DDR5 systeem ga ben ik aan de beurt als het om de aanschaf van geheugen gaat, maar dan kan ik wel langer door met het moederbord. Wat zouden jullie doen?
Een Mac Studio? Of is dat vloeken in de kerk? :P

Hoeveel geheugen heb je nu op die kaarten zitten? Als dat toereikend genoeg is en het gaat je puur om de PCI lanes, dan zou ik zelf niet de DDR5 hoofdprijs willen betalen (denk ik).

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 21:45
Als je al een complete pc hebt staan is mac studio relatief duur, het is vooral interessant als je een nieuw systeem wil samenstellen met zoveel mogelijk vram (bovendien zijn ook deze steeds moeilijker te vinden door de geheugentekorten).

In dit geval is zo'n DDR4 uitbreiding relatief nog te doen, maar wat doe je er precies mee? Dat is nogal belangrijk om te zien wat slim is natuurlijk.

[ Voor 24% gewijzigd door DeNachtwacht op 15-05-2026 18:55 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Gr4mpyC3t schreef op vrijdag 15 mei 2026 @ 18:38:
[...]

Een Mac Studio? Of is dat vloeken in de kerk? :P

Hoeveel geheugen heb je nu op die kaarten zitten? Als dat toereikend genoeg is en het gaat je puur om de PCI lanes, dan zou ik zelf niet de DDR5 hoofdprijs willen betalen (denk ik).
Momenteel heb ik twee W6800's, waarmee het totaal op 64 GB VRAM komt. Ik overweeg om er twee kaarten er bij prikken. De huidige kaarten werken op PCI-e 4.0, maar als ik bijvoorbeeld zou overstappen naar AI9700's, dan zou dat 5.0 worden en die kaarten presteren iets beter dan de W6800's maar zijn ook niet veel duurder dan W6800's. Dat is ook een van de redenen om te kijken naar PCI-e 5.0. Ze waren alleen nog niet beschikbaar toen ik vorig jaar mijn systeem bouwde. Het nadeel van de AI9700 is wel dat die nog wat problemen met P2P heeft, waardoor een opstelling met meerdere kaarten nu nog niet werkt zoals je zou willen. Daar wordt geloof ik wel aan gewerkt en de upgrade kan later ook nog.

Met een Threadripper sWRX8 systeem is het kostenplaatje ca €2200 en het geheugen wordt daarnaast achtkanaals en 256GB. Met een Threadripper sTR5 systeem met 128GB RAM, en met 4 van de 8 kanalen bezet, dus effectief dezelfde geheugenbandbreedte als de sWRX8 opstelling, zit je aan ca. €8000. Dat is dus heel fors. Hét voordeel van sTR5 is dan natuurlijk dat de bandbreedte verdubbelt en dat kan echt wat schelen in casu LLM's draaien en dat je waarschijnlijk nog een nieuwe generatie kaarten er in kan prikken zonder dat die last gaan hebben van de bandbreedte op de bus.

Een Mac Studio is niet per se vloeken in de kerk, maar ik schat dan wel in dat 128 GB aan systeemgeheugen dan wel de ondergrens is. Die is alleen tweedehands verkrijgbaar en is zeldzaam. Ook is het aanpassen aan de andere software dan weer een heel leertraject. Het voordeel van een Threadripper PC is wel dat je ook makkelijk andere dingen ernaast kan draaien omdat de LLMs dan in een VM op Proxmox worden gehuisvest.

Maar goed, ik had eerder de kosten niet echt helder. Nu ik de mogelijkheden in wenslijsten heb gezet is dat wel het geval. Aangezien de kaarten voor beide opstellingen dezelfde kosten opleveren is het ook niet heel interessant om die op te sommen in de vergelijking. Die heb ik dus niet meegenomen en het is ook eigenlijk een losstaande overweging. €2200 voor een hobbyproject is aan de prijs, maar is "te overzien". Het is zeg maar een aanzienlijk deel van budget dat ik in een jaar aan mijn servers spendeer. Als je daar de prijs van een tweedehands auto tegenoverzet voor een verdubbeling van de bandbreedte naar/tussen de kaarten, dan moet ik toch wel twee keer nadenken. Tegelijkertijd lijkt de RAM-crisis nog zeker een jaar of anderhalf door te gaan, ook als OpenAI de opties die ze hebben niet uitoefent. Het is bijna alsof de CAPEX van de AI hosters in het klein wordt nagespeeld 8)7

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het wordt toch maar de sWRX8 opstelling, want dat geheugen is me te prijzig. Ik heb er nog twee SSD's bij gedaan, waardoor het iets duurder werd.
#CategorieProductPrijsSubtotaal
1ProcessorsAMD Ryzen Threadripper Pro 5955WX Boxed€ 664,89€ 664,89
1MoederbordenASRock WRX80 Creator R2.0€ 599,-€ 599,-
2VideokaartenAMD Radeon PRO W6800€ 0,-€ 0,-
1BehuizingenSilverstone RM51€ 449,-€ 449,-
1Computer-accessoiresSilverstone RMS05-22 rails€ 106,66€ 106,66
1ProcessorkoelingNoctua NH-U14S TR4-SP3€ 90,95€ 90,95
8Geheugen internMicron MTA18ASF4G72AZ-3G2B1€ 0,-€ 0,-
1VoedingenFSP Hydro PTM PRO 1650W ATX3.0(12V-2x6)€ 251,52€ 251,52
2Interne ssd'sLexar NM790 (zonder heatsink) 4TB€ 299,-€ 598,-
Bekijk collectie
Importeer producten
Totaal€ 2.760,02
Ik ben nog op zoek naar twee extra W6800's om het totaal op 4 te brengen.

[ Voor 98% gewijzigd door ocf81 op 19-05-2026 19:43 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 20-05 19:04

CSB

:D

Poeh, wat een geld :X

Kleine statusupdate van mijn bescheiden, oude gamebak:

Ik heb Ollama verruild voor Llama.cpp en op Ubuntu docker geinstalleerd. Mijn zeer oude Core i7 en 24 GB DDR3 RAM i.c.m. een RX6650XT kan toch de Qwen3.6 35B A3B draaien met 35+ token/s, wat ik acceptabel vind. Dit is tot op heden het beste wat ik eruit heb kunnen halen. Dankzij MTP zijn de kleine dense modellen ook nog eens een stukje sneller geworden, dus voor agents of automation tasks is het prima.

Ik wacht nog wel ff tot de bubble barst. ;)

Met zo'n administrator heb je geen users meer nodig...


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Goedkoop is anders, maar dan kan ik wel modellen draaien die weer een slag groter zijn, of agenten die veel tegelijk doen. Overigens had ik de Noctua koeler al in huis, want van 2017 t/m 2022 heb ik een Threadripper systeem als desktop gehad. Dus dat scheelt weer €90 :)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CT
  • Registratie: September 2001
  • Laatst online: 21:27

CT

📱💻 🎮 ⌚🖥

Ik was nog geen 800 kwijt voor mijn AI rig, al had ik nog 32GB ddr4 liggen en een ssd, anders was het iets duurder geweest. Voeding en mobo+cpu was 200. Lastigste was een mobo vinden die 2x pcie x16 heeft.

Draai nu 2xRTX3080, die van taobao met 20gb vram p/s, kosten ongeveer 300 (euro) p/s en ik haal nu 32tkn/s met qwen-3.6-27b-q8 met een grote context. Dus je hoeft echt niet je spaarrekening te plunderen 😁
Pagina: 1 2 Laatste