Inleiding
De laatste paar jaar heeft AI een definitieve indruk achtergelaten als het om taken gaat waar veel informatie moet worden verwerkt. Enquêtes laten zien dat AI veelvuldig gebruikt wordt bij taken als het het schrijven van code. Veel van deze diensten zijn echter gebaseerd op de cloud, en dat vindt niet iedereen even prettig. Gelukkig is het mogelijk om ook lokaal LLM's te draaien. Deze discussie staat in het teken van het wel en wee van het zelf draaien van LLM's.Runners
Om een LLM lokaal te kunnen draaien heb je een runner nodig. Dat is een programma dat een model inlaadt en dan de verzoeken van een gebruiker daar op loslaat. Voorbeelden hiervan zijn o.a.:Modellen
Natuurlijk zijn er meerdere soorten modellen. De meeste vrij beschikbare modellen. Bekende repo's voor modellen zijn o.a.:Je kan AI modellen op verschillende manieren indelen, ten eerste op hun mogelijkheden. Vision modellen zijn goed in het verwerken van plaatjes. Coding modellen zijn relatief sterk in het opstellen en/of verwerken van code. Multi-expert modellen zijn een combinatie van modellen met elk een specifieke focus. En een instruct model is heel goed in het opvolgen van aanwijzingen, (dit is in de meeste gevallen overigens meer een kwestie van parameters dan van expliciete training) terwijl een reasoning model je de oren van het hoofd praat en de onderliggende denkstappen steeds expliciet uitspreekt.Daarnaast is er de indeling op basis van de parameters van een model. Hoeveel parameters (verbindingen) er in het model zitten bepaalt hoe goed het model is: hoe hoger hoe beter. Een 35B model heeft dus minder parameters dan een 70B model. Hierbij is onderscheid te maken in dense modellen, die alle parameters gebruiken (bijv Qwen 3.6 27B) en Mixture of Experts (MoE) modellen, waarbij een klein deel actief aan te spreken is die door een router per vraag die je stelt wordt ingericht op alle beschikbare parameters (bijv Qwen 3.6 35B A3B heeft in totaal 35B, waarvan er steeds 3B parameters actief beschikbaar zijn).
Front-ends
Om een LLM op een beetje gebruiksvriendelijke manier te ontsluiten kan je een front-end gebruiken. Een paar bekende zijn:Open WebUI, een Docker container die een web-based front-end serveert met een chatinterface. Deze kan zowel met externe als met locale LLM servers babbelen.
Page Assist, een plugin die je kan instellen om met een eigen Ollama instantie te verbinden.
AnythingLLM, een web-based front-end.
Voor Stable diffusion, een plaatjesgenerator, kan je o.a. stable-diffusion-webui van AUTOMATIC1111 gebruiken
Naast chatten met een LLM zijn er ook toepassingen die gebruik kunnen maken van LLM's over het netwerk. Een vanb de meest bekende opties is het ondersteuenen van programmeerwerkzaamheden d.m.v. LLM's. Voor je IDE zijn er ook plug-ins:
Agenten
Het is ook mogelijk om een agent te draaien met een lokale LLM. Een agent stuurt de gehele computer aan en kan dus ook instellingen op de pc aanpassen, nieuwe software downloaden of verwijderen en als je hem teveel rechten geeft, jouw persoonlijke account dus zelfs ontdoen van adminrechtenDe drie bekenste/grootste AI Agents zijn: OpenClaw, Hermes en OdysseusAI (net gestart door youtuber PewDiePie). Van met name OpenClaw zijn ook veel forks gemaakt, maar onthou dat het vaak snel in elkaar gevibecode producten met beveiligingsrisico's zijn. Handige richtlijn is om te kijken op reddit hoe actief de community daar is: De groots aangekondigde minimale 'picoclaw' is bijvoorbeeld alweer bijna dood. Eervolle vermelding is NemoClaw, gemaakt door nvidia icm hun model Nemotron en gericht op een meer veilige / stabiele agent.
Er is ook een apart topic specifiek voor het configureren van zo'n agent waarbij ook alle vragen over lokale modellen gebruiken hiervoor geen probleem zijn. Vooral nu cloudabonnementen worden omgezet naar afrekenen op basis van gebruik kan dit lokaal draaien interessant zijn.
Vormen van AI anders dan LLM's
Naast het verwerken van invoer naar tekst kan een AI ook andere vormen uitvoeren. Dan spreken we van diffusie. Daarmee is het genereren van afbeeldingen, video, audio en steeds meer andere gewenste output mogelijk. Het meest populaire softwarepakket momenteel daarvoor is ComfyUI, hier is een apart topic met veel meer uitleg over omdat dit ook weer echt iets anders is dan zelf taal genereren. De belangrijkste diffusion models die in ComfyUI te draaien zijn, zijn o.a.: Stable diffusion Invoke AI LocalAIHardwarevereisten
Hoewel dit topic in eerste instantie over de software om zelf LLM's te hosten gaat, is begrip over de hardware die er voor nodig is natuurlijk ook zinvol:(vereenvoudigde) Theoretische Achtergrond van de Hardwarevereisten
Het is wellicht goed om te begrijpen welke hardwarematige factoren van belang zijn voor LLM’s om hun werk te doen:1. De hoeveelheid geheugen die het model nodig heeft
2. De snelheid van dat geheugen
3. De rekenkracht en opmaak daarvan
4. De verbindingen tussen de rekeneenheden.
1. De hoeveelheid geheugen die het model nodig heeft
Het model heeft voornamelijk geheugen nodig voor parameters/gewichten en voor de activaties. De collectie parameters is de initiële kennisbasis voor het model en moet sowieso worden ingeladen. Daarnaast zijn er de activaties. Dat zijn de verbanden die het model opbouwt tijdens het verwerken van de vragen. Het grootste deel hiervan is voor het K/V Cache. Dit zijn de relaties die aan de hand van de invoer worden opgebouwd. De omvang hiervan schaalt met de contextgrootte, ofwel de omvang van wat het model te verwerken krijgt als invoer. Mocht het model over meerdere rekeneenheden worden verdeeld, dan is enige replicatie soms ook noodzakelijk om alles synchroon te laten lopen. De omvang van de parameters en de context kan worden verkeind door kwantisatie toe te passen, maar daardoor gaat de kwaliteit van het model (engiszins) achteruit.2. De snelheid van het geheugen
Om alle gegevens te raadplegen is geheugenbandbreedte een kritiek gegeven. Een grotere bandbreedte zal bij inferentie, zeg maar het verwerken van een vraag door het model, meteen terug te zien zijn in het aantal tokens dat per seconde verwerkt kan worden. De bandbreedte is het product van de hoeveelheid overdrachten per seconde en de hoeveelheid data die in een overdracht wordt meegegeven. De vertraging is minder van belang dan de totale overdrachtssnelheid van het geheugen(systeem).3. De rekenkracht en opmaak daarvan
AI-werk is voor een heel groot deel op massaal paralelle matrixberekeningen gestoeld. Dat betekent dus dat je baat hebt bij een groot aantal rekenkernen. Deze hoeven niet eens heel complex te zijn. Het moeten er vooral veel zijn.CPU’s hebben rekenkernen die heel veel dingen kunnen, maar je hebt er doorgaans maar een paar van. GPU’s hebben daarentegen relatief eenvoudige rekenkernen, maar de meeste GPU’s hebben er honderden tot duizenden van en ze zijn heel goed in matrixberekeningen.
CPU’s hebben echter ook speciale accelleratoren die bepaald werk zeer snel kunnen doen, mits de software daar op in speelt. Dat is ook waar de Neural Processing Unit (NPU) een rol speelt. Het is een bijzonder soort accelerator in dat het op de CPU geïntegreerd is, en dus ook gebruik maakt van het systeemgeheugen, maar het veel werk kan doen zoals een GPU dat kan doen. Wellicht is de vergelijking met een AI iGPU niet heel ver van de werkelijkheid.
4. De verbindingen tussen de rekeneenheden.
Mocht je het werk verdelen tussen rekeneenheden, dan wordt de verbinding tussen die eenheden ook belangrijk. De snelheid en de vertraging (latency in het Engels) tussen rekeneenheden kan duidelijke invloeden hebben op de prestaties van de rekeneenheden. Bepaalde technieken, zoals PCI-e P2P kunnen in sommige situaties een aanzienlijke versnelling teweeg brengen.overige overwegingen
Ten slotte zijn er eventueel nog andere overwegingen van belang. De rekenkracht wordt bij het trainen van modellen een veel voornamere factor. Tevens zal de snelheid tussen de rekennodes, of dat nu GPU’s zijn in één machine, of de verbindingen tussen nodes in deen cluster, dan heel belangrijk worden. Maar omdat we ons in dit topic vooral op inferentie richten, laten we het voor nu daar bij.Praktische Hardwarevereisten (en aanpalende zaken)
Na het lezen van het voorgaande deel zal je waarschijnlijk wel duidelijk zijn dat voor een goed resultaat wel met capabele hardware aan moet komen zetten.CPU, NPU en GPU
De AI hype bij het grote publiek is een beetje begonnen toen ontdekt werd dat de CUDA cores die nVidia oorspronkelijk voor gaming performance ontwikkelde, zeer geschikt bleken voor AI berekeningen. GPU’s hebben door de grotere overdrachtsomvang een veel hogere effectieve bandbreedte dan systeemgeheugen, maar het aantal kanalen dat je CPU ondersteunt kan dat (gedeeltelijk) goedmaken. Op zich kan je met een CPU lokaal dus een LLM draaien zonder een GPU, maar die moet dan wel over relatief veel rekenkernen beschikken en heeft ook een redelijk groot aantal (snelle) geheugenkanalen nodig. Als reactie op de AI hype zijn er dus ook CPU’s met NPU (neural processing unit) ontwikkeld, zoals de Apple M processoren en de AMD Ryzen AI 395+, die optimalisaties hebben voor neurale netwerken en het voordeel van unified memory hebben, welke ook nog sneller is dan het systeemgeheugen dat op DIMM’s zit. NPU’s kunnen nuttig zijn als de software er gebruik van maakt en de computer over systeemgeheugen beschikt dat snel genoeg is, maar altijd geldt dat GPU's veel sneller zullen zijn. Het voordeel van de NPU setups is echter dat relatief betaalbaar een setup met meer vram mogelijk is; als snelheid dus niet het meest belangrijke is kan dat een voordeel zijn.De softwareondersteuning
Naast de puur technische specificaties is de softwareondersteuning van de hardware ook een ding wat verschil kan maken als het om prestaties gaat. nVidia is natuurlijk bekend om CUDA, waarmee nVidia een leidende positie heeft op weten te bouwen in het landschap voor massaal paralelle berekeningen. AMD heeft met ROCm een vergelijkbare softwarebibliotheek proberen te bouwen, maar deze is nog niet zo verfijnd als CUDA en de acceptatie ervan is ook lang niet zo breed. Voor LLM gebruik is de acceptatie ervan wel breed genoeg om nuttig te zijn. De situatie rondom Intel is het meest illustrerend dat softwareondersteuning kritiek is. De hardware die Intel heeft is in princiepe best capabel. De softwareinspanningen van Intel staan echter nog in de kinderschoenen en dat heeft ook duidelijk (voornamelijk negatieve) effecten op de reëele pretaties van de hardware die intel aanbiedt.Wat kost dat dan?
Zoals al duidelijk werd zijn GPU’s de snelste manier om met AI aan de slag te gaan. Maar de meest capabele GPU’s zijn relatief duur. De beste GPU die je nog in een normaal PCI-e slot kan steken is de nVidia RTX 6000 Pro Blackwell met 96 GB VRAM. Deze kost anno nu zo’n €13.000. 32 GB Vram haal je bij nVidia voor €4000 tegenwoordig met een RTX 5090, of bij AMD voor €1500. Je ziet dus dat modellen van maximaal zo'n 20 gb + 9 gb context + 3 gb voor je desktop = 32Gb voor consumenten ongeveer de max zijn om thuis te draaien.Maar al eerder noemden we dat het ook mogelijk is om taalmodellen op de CPU te draaien. En dat biedt twee voordelen:
1. voor een Apple Mac Mini met 48GB ramgeheugen betaal je momenteel €2400. Wie het nog gekker wil maken kan voor €5900 een Mac Studio met 96GB vram aanschaffen. Zo'n setup zorgt dus dat je ook als consument relatief grote modellen kan draaien die met GPU's alleen te halen zijn door op professionele moederborden meerdere GPU's te installeren.
2. Zoals je ziet heb je voor de helft van de prijs van een RXT 6000 Blackwell een Mac setup met net zoveel unified ram tot je beschikking, het is dus ook flink goedkoper.
Maar we kennen hem al... 'elk voordeel heb z'n nadeel': want ook al is taalmodellen draaien goed mogelijk op CPU's met unified geheugen, het is nog steeds wel flink trager (2 tot 6 keer) dan via nVidia gpu's. Dat hoeft geen nadeel te zijn; als jij de pc vaak even kan laten rekenen terwijl je zelf ander werk doet, heb je alsnog bovenstaande twee voordelen t.o.v. GPU's te pakken.
Het is dus zeker niet zo dat je voor LLM's altijd GPU's wil en de keus is dus eigenlijk: een relatief klein model supersnel draaien op een GPU, of een groter model langzamer draaien op unified ram.
Nuttige informatie:
Wil je een weten of een LLM wil draaien op de hardware die jij voor ogen hebt, kijk dan eens op de ApX ML Calculator om een (theoretische) inschatting te maken of die hardware geschikt is.Blog met overwegingen bij het kiezen van hardwareopzet met oudere hardware
Overwegingen bij het kiezen van hardwareopzet met meerdere GPU's
Welke modelrunner?
ollama GitHub
[ Voor 190% gewijzigd door DeNachtwacht op 29-06-2026 16:23 ]
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!

