inleiding
De laatste paar jaar heeft AI een definitieve indruk achtergelaten als het om taken gaat waar veel informatie moet worden verwerkt. Enquêtes laten zien dat AI veelvuldig gebruikt wordt bij taken als het het schrijven van code. Veel van deze diensten zijn echter gebaseerd op de cloud, en dat vindt niet iedereen even prettig. Gelukkig is het mogelijk om ook lokaal LLM's te draaien. Deze discussie staat in het teken van het wel en wee van het zelf draaien van LLM's.Runners
Om een LLM lokaal te kunnen draaien heb je een runner nodig. Dat is een programma dat een model inlaadt en dan de verzoeken van een gebruiker daar op loslaat. Voorbeelden hiervan zijn o.a.:Modellen
Natuurlijk zijn er meerdere soorten modellen. De meeste vrij beschikbare modellen. Bekende repo's voor modellen zijn o.a.:Er zijn een aantal verschillende soorten toepassingen voor een model, en niet alle modellen kunnen alle soorten taken even goed uitvoeren.Vision modellen zijn bijvoorbeeld goed in het verwerken van plaatjes. Coding modellen zijn relatief sterk in het opstellen en/of verwerken van code. Multi-expert modellen zijn een combinatie van modellen met elk een specifieke focus. En een instruct model is heel goed in het opvolgen van aanwijzingen, (dit is in de meeste gevallen overigens meer een kwestie van parameters dan van expliciete training) terwijl een reasoning model je de oren van het hoofd praat om maar de indruk te geven dat ie echt kan denken.
Hoeveel parameters (verbindingen) er in het model zitten bepaalt hoe goed het model is; hoe hoger hoe beter. Er is hierbij ook een onderscheid te maken tussen dense modellen, die alle parameters gebruiken (bijv Qwen 3.6 27B) en Mixture of Experts (MoE) modellen, waarbij een klein deel actief aan te spreken is die door een router per vraag die je stelt wordt ingericht op alle beschikbare parameters (bijv Qwen 3.6 35B A3B heeft in totaal 35B, waarvan er steeds 3B parameters actief beschikbaar zijn).
Chat modellen zijn direct te gebruiken, maar soms wil je de assistentie van een ander model.
Embedding modellen zijn bijvoorbeeld specifiek gemaakt om media te formatteren voor LLM-gebruik. Een apply model maakt het mogelijk om bijvoorbeeld een stuk tekst in te voegen in een bestaande tekst zonder alles over te schrijven.
Front-ends
Om een LLM op een beetje gebruiksvriendelijke manier te ontsluiten kan je een front-end gebruiken. Een paar bekende zijn:Open WebUI, een Docker container die een web-based front-end serveert met een chatinterface. Deze kan zowel met externe als met locale LLM servers babbelen.
Page Assist, een plugin die je kan instellen om met een eigen Ollama instantie te verbinden.
AnythingLLM, een web-based front-end.
Voor Stable diffusion, een plaatjesgenerator, kan je o.a. stable-diffusion-webui van AUTOMATIC1111 gebruiken
Naast chatten met een LLM zijn er ook toepassingen die gebruik kunnen maken van LLM's over het netwerk. Een vanb de meest bekende opties is het ondersteuenen van programmeerwerkzaamheden d.m.v. LLM's. Voor je IDE zijn er ook plug-ins:
Agenten
Het is ook mogelijk om een agent te draaien. Daarmee kan je langer lopende taken uitbesteden aan een LLM en wordt de LLM dus als het ware ingezet als de 'hersenen' van jouw persoonlijke assistent. Je draait deze veiligheidshalve dus ook niet op je eigen systeem maar ten minste in een docker, en liefst zelfs op een aparte mini pc of mac mini. Via LM studio of Ollama op je eigen PC is een server op te zetten voor zo'n externe PC om de LLM in het netwerk te benaderen.De drie bekenste/grootste AI Agents zijn:
OpenClaw
Hermes
OdysseusAI (net gestart door youtuber PewDiePie)
Van met name OpenClaw zijn ook veel forks gemaakt, maar onthou dat het vaak snel in elkaar gevibecode producten met beveiligingsrisico's zijn. Handige richtlijn is om te kijken op reddit hoe actief de community daar is: De groots aangekondigde minimale 'picoclaw' is bijvoorbeeld alweer bijna dood. Eervolle vermelding is NemoClaw, gemaakt door nvidia icm hun model Nemotron en gericht op een meer veilige / stabiele agent.
Er is ook een apart topic specifiek voor het configureren van zo'n agent, dat kan zowel met lokale- als cloudmodellen namelijk, maar dit kan heel snel in de papieren lopen! Vooral nu abonnementen worden omgezet naar afrekenen op basis van gebruik kan het voor intensiever gebruik interessant zijn om te kijken naar het lokaal draaien van de modellen.
Vormen van AI anders dan LLM's
Naast het verwerken van invoer naar tekst kan een AI ook andere vormen uitvoeren. Dan spreken we van difusie. Voorbeelden zijn o.a.:Stable diffusion
Invoke AI
LocalAI
Nuttige informatie:
Overwegingen bij het kiezen van hardwareopzet met oudere hardwareOverwegingen bij het kiezen van hardwareopzet met meerdere GPU's
Welke modelrunner?
ollama GitHub
[ Voor 130% gewijzigd door ocf81 op 16-06-2026 12:34 ]
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!

