Ervaringen met zelf gehoste AI assistenten

Pagina: 1 2 Laatste
Acties:

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Interessant topic, verbaast me bijna dat er nog zo “weinig” reacties in zijn gezien de populariteit van AI. Ik wil er binnenkort ook eens mee gaan experimenteren, mijn workstation heeft een RTX 4090, AMD 5950x gpu en 64gb ram dus aardig wat speelruimte voor een thuisgebruik pc.

Nu weet ik dat het antwoord ongetwijfeld nee is ;) maar ik hoopte iets met video genereren te kunnen dat richting Veo 3 gaat. Ik neem aan dat dat op eigen hardware echt uit den boze is, of is er toch op één of andere manier mee te experimenteren? Ben benieuwd wat voor advies jullie zouden hebben om te starten met plaatjes / video genereren op een eigen pc.

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
hoeveel VRAM heb je? Enneh, die 5950x is toch een CPU?

  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 10:00
Ik draai de lichte versies thuis met 32GB ram zonder deftige GPU via ollama. Leuk om mee te spelen.
Op termijn wil ik ervaring opdoen om dit op het werk te gaan integreren ivp betaalde copilot te gebruiken.

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
Ik ben nog bezig geweest met het zoeken naar een goede manier van RAG (kennis databases) toepassen.
Ik heb het volgende gevonden (zie mijn systeem hierboven):

-Content extraction engine: Tika
-Chunk size: 512 / 100 overlap
-Text splitter: token
-Embedding: scentence transformers met BAAI/bge-m3
-Hybrid search aan
-Reranking engine: default met BAAI/bge-reranker-v2-m3
-Top K 10, reranker 3, relevance threshold 0.15
Redelijk standaard prompt:
### Task:
Respond to the user query using the provided context, incorporating inline citations in the format [id] **only when the <source> tag includes an explicit id attribute** (e.g., <source id="1">).

### Guidelines:
- If you don't know the answer, clearly state that.
- If uncertain, ask the user for clarification.
- Respond in the same language as the user's query.
- If the context is unreadable or of poor quality, inform the user and provide the best possible answer.
- If the answer isn't present in the context but you possess the knowledge, explain this to the user and provide the answer using your own understanding and mark them with an asterisk.
- **Only include inline citations using [id] (e.g., [1], [2]) when the <source> tag includes an id attribute.**
- Do not cite if the <source> tag does not contain an id attribute.
- Do not use XML tags in your response.

De data die ik in de RAG voedt zijn boeken over onderwerpen waar ik meer over wil weten. Deze boeken zijn gesplitst in hoofdstukken en bestaan uit .txt bestanden. Waarschijnlijk zijn ze al lang opgenomen in het model (ik vermoed dat de gehele libgen database opgenomen is in de trainingsset) maar doordat ik een klein model gebruik kan ik hiermee de kennis die verloren is door het optimaliseren, "terugwinnen". Zo kan ik gerichte vragen stellen over stof die in een online cursus wordt behandeld. De prompt voor het model ben ik nog aan het verbeteren, maar ik merk ook dat dat van groot belang is.

Het model dat ik hiervoor gebruik is hf.co/unsloth/gemma-3-4b-it-qat-GGUF:UD-Q4_K_XL omdat het snel reageert, prima antwoorden geeft en ruimte overlaat voor de context (16K) en toch in VRAM past. Daarnaast zorg ik dat alle layers op de GPU worden geladen door de num_gpu (Ollama) op 255 te zetten.

Response tokens zijn 62/s
Prompt tokens zijn 2150/s

[ Voor 7% gewijzigd door Thonz op 06-06-2025 13:55 ]


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Thonz schreef op donderdag 5 juni 2025 @ 22:22:
hoeveel VRAM heb je? Enneh, die 5950x is toch een CPU?
De 5905X is een cpu, maar dat lijkt me ergens ook nuttig, of is het puur GPU die telt voor dit soort AI modellen? De RTX 4090 die ik heb is de founders edition met 24GB VRAM (maar dat heeft de 4090 volgens mij altijd?)

Voor zover ik nu google en zoek zijn mijn beste kansen bij wan ai 2.1, klopt dat? En kun je met die tools ook hogere resoluties genereren? Zo te zien is zelfs veo 3 in de cloud max 720p blijkt als ik er onderzoek naar doe?

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
De CPU ontbeert gewoon de parallelle rekenkracht om snel zijn werk te doen. Tevens is de geheugenbandbreedte ontoereikend om snel genoeg het model te raadplegen.

Een mooie vergelijking:
Ik heb met mijn 5800X en 128GB geheugen eens de vraag gesteld welke luchtmachtbases allemaal actief zouden zijn bij een Fulda gap scenario. Het model had 14b parameters.
De CPU deed er ruim 6 uur over. Later nog eens gevraagd met een GPU erbij (7800XT) dat duurde 3 minuten.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Maar ik lees dan wel weer dat je met grote taalmodellen er weer wel iets aan hebt als je naast de GPU een cpu met veel cores hebt, hoe zit dat dan?

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op vrijdag 6 juni 2025 @ 18:07:
Maar ik lees dan wel weer dat je met grote taalmodellen er weer wel iets aan hebt als je naast de GPU een cpu met veel cores hebt, hoe zit dat dan?
Als het model de geheugenruimte van de GPU overstijgt gaat de CPU dat voor een deel opvangen. Bepaalde zaken worden ook op de CPU afgehandeld, maar ik weet niet precies welke. Voor mij is een 5800X genoeg, zolang er maar een GPU met veel VRAM aan hangt.

meer info

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Thonz
  • Registratie: Oktober 2008
  • Niet online
De reden dat ik dat vroeg was omdat je zei:
Om op je vraag terug te komen, het beste is om het gehele model in GPU te houden en de quant (mate van optimalisatie) te kiezen die daarbij past.
Ik heb nog geen ervaring met het genereren van video, maar ik zou eens hier kijken voor de meest gebruikte modellen die in je VRAM passen.

Wat @ocf81 zegt klopt inderdaad. Zodra je zaken gaat versprieden over GPU en CPU moet er gegevensoverdracht plaatsvinden tussen die twee, met de geheugebus als bottleneck.

Ik zou vooral nog alles wat ik en anderen je vertellen zelf natrekken. Gemini en Claude vind ik hiervoor erg nuttig.
ocf81 schreef op vrijdag 6 juni 2025 @ 18:01:
Ik heb met mijn 5800X en 128GB geheugen eens de vraag gesteld welke luchtmachtbases allemaal actief zouden zijn bij een Fulda gap scenario. Het model had 14b parameters.
De CPU deed er ruim 6 uur over. Later nog eens gevraagd met een GPU erbij (7800XT) dat duurde 3 minuten.
Zonder je prompt te weten is er natuurlijk geen vergelijking te maken, maar dit is wat gemma-3-4b-it-qat-GGUF:UD-Q4_K_XL mij vertelde op de prompt: "In a fulda gap scenario, which airforce bases in the Netherlands will be active?"

Okay, let's break down which Dutch air force bases would likely be active in a Fulda Gap scenario. This is a complex hypothetical, and the exact situation would depend on the scale and nature of the conflict, but here's a breakdown based on current Dutch military doctrine and strategic considerations:

Likely Active Bases & Their Roles:


Leeuwarden Air Base (KbvL): This is the key base. Leeuwarden is the primary location for the F-35 Lightning II fighter jets currently deployed in the Netherlands. It would be absolutely central to any rapid reinforcement of the front lines. Its role would be:
Rapid Reinforcement: F-35s would be rapidly deployed to the front to provide air superiority, strike capabilities, and reconnaissance.
Air Defense: Supporting ground forces against Russian air attacks.
Command & Control: Serving as a key node for coordinating air operations.


De Kooy Air Base (KbvK): De Kooy is a significant base with a diverse range of capabilities. It would likely be involved in:
Support Aircraft: Providing support to Leeuwarden, including tankers, electronic warfare aircraft, and potentially transport aircraft.
Ground Attack Support: Potentially deploying F-16s (though less likely than F-35s in a rapid reinforcement scenario) for ground attack missions.
Logistics & Maintenance: Supporting the movement and maintenance of aircraft.


Volkel Air Base (KbvV): Volkel is a crucial base for long-range strike capabilities and air defense. It would likely be involved in:
Long-Range Strikes: Supporting attacks against Russian forces further behind the front lines.
Air Defense: Contributing to the overall air defense network.
Intelligence, Surveillance, and Reconnaissance (ISR): Providing vital intelligence on enemy movements.


Gilze-Rijen Air Base (KbvG): Gilze-Rijen is a major maintenance and logistics hub. It would be vital for:
Aircraft Maintenance: Ensuring that aircraft are ready for deployment and operation.
Logistics: Managing the flow of supplies, fuel, and ammunition to the front lines.
Electronic Warfare: Supporting electronic warfare operations.


Less Likely, but Possible:

Eelde Air Base (KbvE): Eelde is primarily a helicopter base. Helicopters would be invaluable for reconnaissance, troop transport, and medical evacuation. Its role would be supporting the ground forces.


Important Considerations & Caveats:

Scale of the Fulda Gap Scenario: The number of aircraft deployed and the level of activity at each base would depend heavily on the size and intensity of the conflict.
NATO Coordination: The Netherlands is part of NATO. Any deployment would be coordinated with other NATO allies, particularly Germany and the United States.
Dutch Air Force Doctrine: The Netherlands has a relatively small air force. Their role would be to rapidly reinforce the front lines, not to engage in large-scale air campaigns.


Resources for Further Research:

Royal Netherlands Air Force Website: https://www.defensie.nl/en/news/royal-netherlands-air-force
Wikipedia - Royal Netherlands Air Force: Wikipedia: Royal Netherlands Air Force


Do you want me to delve deeper into a specific aspect of this, such as:

The types of missions the Dutch aircraft would likely undertake?
The logistical challenges of deploying aircraft through the Fulda Gap?
The role of Dutch air defense systems?


Van het moment dat ik op enter drukte tot geheel antwoord duurde het 14 seconden

overigens klopt de link van de Nederlandse luchtmacht niet: het moet https://english.defensie.nl/organisation/air-force zijn. Dit is wat ik bedoelde met de kwaliteit van de antwoorden in mijn eerste post in dit topic.

[ Voor 74% gewijzigd door Thonz op 06-06-2025 19:19 ]


  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 19:25
Wat een interessant topic!
Wij waren al van plan om een thuisserver te bouwen en bekijken nu ook de mogelijkheid om lokaal llm's te draaien.

In eerste instantie dacht ik om voor een Intel 1700 processor te gaan (bv 13900/14900) die tweedehands aangeboden worden. Dit omdat deze energiezuinige e cores hebben icm performance cores . Het zou zo te tunen moeten zijn dat dit redelijk zuinig uitpakt.

Ik twijfel nu wel welk moederbord het meest geschikt is voor in de toekomst 2 3090 gpu's samen te kunnen draaien. In eerste instantie is een 3090 de bedoeling, maar ik wil het systeem zo schaalbaar maken zodat een tweede erbij geprikt kan worden voor de llm's.
Nu heb ik wat ingelezen en ik zie dat een mobo wat die twee keer x pic lanes voor de gpu's ondersteund lastig te vinden zijn voor het 1700 socket.
Voor het AMD AM5 platform zijn deze wel beter beschikbaar. Aan de andere kant is het performance issue van een tweede gpu die niet op 8 lanes draait ook niet heel groot. Welk moederbord zou dan het meest geschikt zijn die voordelig is?

Qua geheugen is het advies geloof ik hoe meer hoe beter. Ik denk aan eerst twee modules van 32gb te kopen en later dan nog 64gb erbij te plaatsen als dat nodig is.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een beetje geheugen is wel handig, maar je wil vooral dingen op de GPU draaien. De verhalen verschillen een beetje wat nu de ondergrens is qua verbinding met de kaart. Sommigen zeggen dat 3.0 x4 wel oké is. Ik hanteer zelf PCI-e 4.0 x8 per kaart, mede omdat het inladen van grote modellen toch best wat tijd kost.

Nog wat handige info:

https://aightbits.com/202...ons-for-multi-gpu-builds/

https://old.reddit.com/r/...speedgenlanes_when_doing/

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 19:25
ocf81 schreef op zondag 8 juni 2025 @ 15:02:
Een beetje geheugen is wel handig, maar je wil vooral dingen op de GPU draaien. De verhalen verschillen een beetje wat nu de ondergrens is qua verbinding met de kaart. Sommigen zeggen dat 3.0 x4 wel oké is. Ik hanteer zelf PCI-e 4.0 x8 per kaart, mede omdat het inladen van grote modellen toch best wat tijd kost.

Nog wat handige info:

https://aightbits.com/202...ons-for-multi-gpu-builds/

https://old.reddit.com/r/...speedgenlanes_when_doing/
Dank je wel voor de informatie. Ik zag dat een uitvoering: ASUS ProArt Z790-CREATOR WIFI wel twee keer pci5 x16 ondersteund op het 1700 socket.
Dan zouden twee 3090's kunnen draaien op x8 lanes.
Volgens de tabel uit de eerste link zou dat een doorvoer snelheid hebben van 32GB/s, dat lijkt mij wel voldoende omdat een 3090 zelf pcie gen 4 is.
Klopt dat of is dit dan overkill en kan ik beter naar een andere goedkopere versie zoeken?

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik zou kijken naar wat voor jou haalbaar is en wat nodig is. PCI-e 5.0 is niet noodzakelijk als je met 3090's gaat werken. Sneller dan PCI-e 4.0 snelheden ga je dan niet halen. Als je eventueel t.z.t. wil upgraden naar een 5090 o.i.d. is het dan echter wel weer fijn om achter de hand te hebben.
Zoals al wordt beschreven in de aangehaalde links in mijn eerdere bericht is het voornamelijk fijn om zo modellen sneller in te laden, en ik merk dat dit toch wel een paar seconden kan duren met een wat oudere kaart en minder bandbreedte.
Als je ook aan training gaat doen, maar dat lijkt nu niet het geval te zijn, wordt het een andere zaak. Dan is een Threadripper of Epyc wellicht de betere keus omdat je dan de volle bandbreedte ter beschikking hebt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Tips voor de kunst van het prompten:

[ Voor 4% gewijzigd door ocf81 op 10-06-2025 14:59 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Julianvvz
  • Registratie: April 2013
  • Laatst online: 28-05 23:03
Interessante topic! Ik ga deze zeker volgen.

Zelf ben ik commercieel bezig met het opzetten en exploiteren van lokale AI machines voor bedrijven. Dit is een alternatief voor cloud LLMs diensten zoals ChatGPT en Gemini. Niet meer afhankelijk zijn van de cloud / USA/China, ongelimiteerde hoeveelheid accounts, mogelijkheid tot het ontsluiten van bedrijfs knowledge bases en ook nog eens te koppelen met bedrijfsprocesautomatisering tools.

Het is een bijzondere wereld met extreme snelle ontwikkelingen in modellen, hardware, en 'awareness' onder de klanten. Ik zal t.z.t. wel eens iets delen.

  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 27-05 07:55

Reacher

oldschool

Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.

Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.

Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.

Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.

but I don't like you in that way
the best things in life are illegal
born to do porn!


  • daily.data.inj
  • Registratie: Januari 2019
  • Niet online
Reacher schreef op dinsdag 10 juni 2025 @ 15:47:
Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.

Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.

Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.

Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.
Hoelangt duurt het ongeveer voordat je een antwoord hebt zonder GPU maar met een bak aan RAM?
Ik ben zelf aan het experimenteren met AnythingLLM(Ollama/Mistral) zonder GPU en met ongeveer 20GB RAM maar ik vind het antwoord best lang duren. Ik heb nog 64GB liggen dus als dat helpt is dat best interessant.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Eigenlijk is inferencing op een CPU alleen maar interessant als je een dikke server hebt, want een desktop heeft gewoonweg niet het aantal cores en geheugenkanalen om ook maar enigszins acceptabele prestaties neer te zetten. Dan zit je echt te kijken naar uren wachten voor een simpele vraag. De hoeveelheid geheugen zorgt er vooral voor dat je een groter model kan draaien. Maar een groter model heeft ook grotere hardwarevereisten. NPU's zijn denk ik vooral leuk voor heel kleine modellen. (<2b parameters)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 27-05 07:55

Reacher

oldschool

Kleiner model met 7 cores en redelijk wat ram is voor de taken die ik er mee doe, extractie, analyse en samenvattingen maken prima werkbaar. Nogmaals, ik gebruik het niet als een assistent maar als een agent

but I don't like you in that way
the best things in life are illegal
born to do porn!


  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 27-05 07:55

Reacher

oldschool

daily.data.inj schreef op dinsdag 10 juni 2025 @ 17:23:
[...]


Hoelangt duurt het ongeveer voordat je een antwoord hebt zonder GPU maar met een bak aan RAM?
Ik ben zelf aan het experimenteren met AnythingLLM(Ollama/Mistral) zonder GPU en met ongeveer 20GB RAM maar ik vind het antwoord best lang duren. Ik heb nog 64GB liggen dus als dat helpt is dat best interessant.
Ik wil wel een use case voor je meten, als je met een use case komt dan benchen we dat

but I don't like you in that way
the best things in life are illegal
born to do porn!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Alex Ziskind heeft een GMKTec EVO-X2 weten te bemachtingen. Dat is een machine met een Strix Halo 395+ en 128 GB RAM. Er is nog geen ROCm voor, dus hij heeft het geprobeerd met Vulkan:

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • BounceCloud
  • Registratie: Juni 2007
  • Laatst online: 19:14
Reacher schreef op dinsdag 10 juni 2025 @ 15:47:
Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.

Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.

Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.

Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.
Wat voor NUC heb je? Ik heb recent een server gebouwd met een i5-13500 en 128GB RAM, maar bijvoorbeeld llama 3.1 8B heeft een hele lage output. Een prompt als "Can you give me a 3 word rime?" duurt 1,5 minuut om een antwoord te produceren.

Met kleinere modellen lijkt het niet veel beter te zijn, dus ik ben op zoek of ik iets mis om te tweaken. Ik gebruik een andere UI (AnythingLLM) om met Ollama-server te interacteren.

  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 27-05 07:55

Reacher

oldschool

BounceCloud schreef op woensdag 11 juni 2025 @ 17:17:
[...]


Wat voor NUC heb je? Ik heb recent een server gebouwd met een i5-13500 en 128GB RAM, maar bijvoorbeeld llama 3.1 8B heeft een hele lage output. Een prompt als "Can you give me a 3 word rime?" duurt 1,5 minuut om een antwoord te produceren.

Met kleinere modellen lijkt het niet veel beter te zijn, dus ik ben op zoek of ik iets mis om te tweaken. Ik gebruik een andere UI (AnythingLLM) om met Ollama-server te interacteren.
Llama.cpp gebruiken met GGUF (Generalized GGML Unified Format) models.

but I don't like you in that way
the best things in life are illegal
born to do porn!


  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 19:25
@BounceCloud kan je aangeven hoe jouw setup er verder uitziet? Daar ben ik wel benieuwd naar en welke taken je uitvoert en hoe dit je bevalt.

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
Ik heb mijn pc destijds gekocht op troostwijk auctions.Er staan nu een aantal te koop die ik zou kopen als ik zelf aan de slag zou willen met LLMs. Deze lijkt me bijvoorbeeld wel aardig daarvoor. Al moet je wel even kijken of er nog anderen bieden. Zo te zien koopt @Detmer veel van de aangeboden PCs op verkoopt ze door op zijn eigen site dus mocht je achter het net vissen, heb je nog kans ;)

[ Voor 7% gewijzigd door Thonz op 12-06-2025 18:17 ]


  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 19:25
Thonz schreef op donderdag 12 juni 2025 @ 16:53:
Ik heb mijn pc destijds gekocht op troostwijk auctions.Er staan nu een aantal te koop die ik zou kopen als ik zelf aan de slag zou willen met LLMs. Deze lijkt me bijvoorbeeld wel aardig daarvoor. Al moet je wel even kijken of er nog anderen bieden. Zo te zien koopt @Detmer veel van de aangeboden PCs op verkoopt ze door op zijn eigen site dus mocht je achter het net vissen, heb je nog kans ;)
Interessant! Zelf kom ik nooit op het idee om veilingen in de gaten te houden voor interessante opties.
Koop je dan in dat geval geen oude meuk die teveel stroom vreet en dat nieuwe componenten sneller en zuiniger zijn?

  • Julianvvz
  • Registratie: April 2013
  • Laatst online: 28-05 23:03
_Uploader_ schreef op donderdag 12 juni 2025 @ 21:33:
[...]

Interessant! Zelf kom ik nooit op het idee om veilingen in de gaten te houden voor interessante opties.
Koop je dan in dat geval geen oude meuk die teveel stroom vreet en dat nieuwe componenten sneller en zuiniger zijn?
Nieuwere architectuur is vaak wel zuiniger dus als het je gaat om kWh/token dan zou ik hier niet voor gaan. Je kunt een 70B model technisch draaien op een oude pc met 128 GB DDR4 geheugen, maar het is te traag voor praktisch gebruik. Verwacht zo'n 1 token per seconde.

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
Julianvvz schreef op vrijdag 13 juni 2025 @ 10:13:
[...]


Nieuwere architectuur is vaak wel zuiniger dus als het je gaat om kWh/token dan zou ik hier niet voor gaan. Je kunt een 70B model technisch draaien op een oude pc met 128 GB DDR4 geheugen, maar het is te traag voor praktisch gebruik. Verwacht zo'n 1 token per seconde.
De onderliggende aanname is inderdaad wel dat de PC hobbymatig/uit interesse wordt aangeschaft. Met die hardware zijn er natuurlijk geen vergelijkbare prestaties te verkrijgen als met een situatie waarin eenzelfde grootte model geheel in VRAM wordt ingeladen.
Het is wel een mogelijkheid natuurlijk om lokaal met grotere modellen te werken zonder dat daar meerdere duizenden euro's aan GPUs gekocht hoeven worden. (los van nieuwere macs/ai-specifieke NUCs)

Hoewel voor die prijs, api toegang via openrouter een soortgelijk pad mogelijk maakt met rekenkracht die niet/nauwelijks lokaal te realiseren is.

Je opmerking klopt goed en is zeker het overwegen waard
ocf81 schreef op dinsdag 10 juni 2025 @ 20:34:
Alex Ziskind heeft een GMKTec EVO-X2 weten te bemachtingen. Dat is een machine met een Strix Halo 395+ en 128 GB RAM. Er is nog geen ROCm voor, dus hij heeft het geprobeerd met Vulkan:

[YouTube: Nvidia, You’re Late. World’s First 128GB LLM Mini Is Here!]
Interessant! Wat mij opviel: de versie die hij heeft getest (Ryzen AI Max+ 395, 128GB RAM en 2TB HDD) is de €2000 die ze ervoor vragen niet waard.
Hopelijk is dit een goed bewijsmateriaal dat fabrikanten nodig te hebben om meer op deze systemen in te zetten!

[ Voor 55% gewijzigd door Thonz op 14-06-2025 13:23 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik had al wel eens van Wave, de terminal emulator met LLM integratie, gehoord, maar nu blijkt er ook een open source tegenhanger te zijn die gebruik kan maken van lokaal gehoste LLM's: https://www.waveterm.dev/

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • zx9r_mario
  • Registratie: Oktober 2004
  • Laatst online: 21:44
Ik gebruik Ollama en als frontend Openweb UI en PageAssist. Voor het schrijven van Nederlandse tekst doet Qwen3:8b en gemma3 het best goed.

Als hobby vind ik de kleinere LLM's leuk om te testen wat ze allemaal kunnen: maak een html website en kijken wat voor code ze bakken, tekst genereren etc. Voor het "echte werk" gebruik ik openrouter.ai.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Als je serieus iets wil moet je inderdaad wel een sloot aan VRAM hebben. De AI machine die ik heb is wat dat betreft wel een vooruitgang voor mij, maar ik kan mij goed voorstellen dat niet iedereen daar €3000 in wil stoppen om de schijnbaar kritieke grens van ca 70b parameters welke nodig is om zinnige resultaten te krijgen te overschrijden.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:50

CSB

:D

ocf81 schreef op zondag 3 augustus 2025 @ 12:50:
Als je serieus iets wil moet je inderdaad wel een sloot aan VRAM hebben. De AI machine die ik heb is wat dat betreft wel een vooruitgang voor mij, maar ik kan mij goed voorstellen dat niet iedereen daar €3000 in wil stoppen om de schijnbaar kritieke grens van ca 70b parameters welke nodig is om zinnige resultaten te krijgen te overschrijden.
Is het echt zo dat je 70b parameters moet willen? Is dat niet per usecase verschillend?
Het is wel echt iets waarvan ik maar moeilijk enige goede richtlijnen over kan vinden. Of in ieder geval "best practices" o.i.d.

Met zo'n administrator heb je geen users meer nodig...


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CSB schreef op maandag 4 augustus 2025 @ 11:50:
[...]

Is het echt zo dat je 70b parameters moet willen? Is dat niet per usecase verschillend?
Het is wel echt iets waarvan ik maar moeilijk enige goede richtlijnen over kan vinden. Of in ieder geval "best practices" o.i.d.
Voor mijn gebruiksscenario's lijkt dit wel een kritieke grens te zijn. Er zijn een aantal duidelijke stappen in modellen en hoe ze presteren. 8b, 14b, 30b, 70b, 100b en dan de volle modellen die tot 600b gaan, elke stap heeft varianten van een paar miljard meer of minder, maar grosso modo kan je modellen in die strata indelen. 8b is gewoon speelgoed dat bijna niks kan. 14b is leuk voor vertaalwerk, maar doet kennisvragen niet goed. Code generatie is beperkt tot simpel werk. Bij 30b gaat het al een stuk beter, maar helaas nog niet zo goed dat je er echt een goed stuk code uit kan krijgen of een gedetailleerdere vraag aan kan stellen. Bij 70b lijkt dit probleem zo veel kleiner is dat het wel een bruikbaar verhaal begint te worden. Maar naar verluidt komen er binnenkort modellen die meer met minder kunnen.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
ocf81 schreef op maandag 4 augustus 2025 @ 12:05:
[...]
Maar naar verluidt komen er binnenkort modellen die meer met minder kunnen.
Klopt, je ziet nu al dat Phi van Microsoft met iedere iteratie steeds betere resultaten geeft met dezelfde parameters. Ik hoop en vermoed hetzelfde, want dat zou betekenen dat we met z'n allen ook wat minder hoeven te vragen van de hardware.

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Ik kom toevallig net deze tegen, is dit nieuw of staat dat al langer online?

https://openai.com/open-models/

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Er was wel een aankondiging gedaan dat er een model van OpenAI zou worden uitgebracht. Maar nu is dat dus ook daadwerkelijk gedaan. Zie ook nieuws: OpenAI brengt openweightredeneermodel uit dat lokaal kan draaien met ...

Ik ben wel benieuwd of er nog een Q4 versie van uitkomt van het 120b model.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 10:00
Ik gebruik dat deepseek model , kleinste, om Engelse texten na te kijken en ben toch heel tevreden van de output. Mijn cpu's gaan wel naar 100 percent en mijn mini pc is aan het blazen maar it gets the job done.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Yarisken schreef op woensdag 6 augustus 2025 @ 12:03:
Ik gebruik dat deepseek model , kleinste, om Engelse texten na te kijken en ben toch heel tevreden van de output. Mijn cpu's gaan wel naar 100 percent en mijn mini pc is aan het blazen maar it gets the job done.
Vertalen gaat bij kleinere modellen in de regel wel goed, maar wat wel merkbaar is, is dat nuances niet altijd even goed worden omgezet. Maar de kleinere modellen hebben gewoon niet genoeg parameters om kennis goed over te brengen.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Waar draai je het in @Yarisken , ollama?

  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 10:00
Ja ollama en webui.
Hier de modellen die ik heb gedownload.
https://ibb.co/r9Cm9jS
Ik gebruik een optiplex mff 3060 i5. Beste resultaten heb ik met deepseek voor wat ik het nodig heb.
Nu wat met n8n aan het spelen.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Alex Ziskind over parallellisatie met Llama.cpp:
Ik had er eigenlijk nog niet over nagedacht, maar Ollama is kennelijk niet in staat om meer dan ééń klus tegelijk af te handelen.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • tomhelmer
  • Registratie: Mei 2013
  • Laatst online: 01-04 12:06
Heeft hier iemand raad?
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Technisch kan dat zeker. Het kan zelfs op een desktop met een GPU met 16GiB VRAM, als je handmatig de contextlengte wat oprekt naar ca 18k tokens en een model met kwantisatie van 4 bits gebruikt, of als je het in delen opsplitst, bijvoorbeeld per act, dan kan het ook met een kleinere context, waardoor je minder geheugen nodig hebt of met meer bits per parameter, waardoor je iets betere resultaten krijgt. Maarrrrrrrr, machinevertalingen hebben zeer weinig "gevoel", waardoor vertalingen nogal mechanistisch overkomen. Dat lijkt me bij een vertaling van een toneelstuk zeker een factor van belang. Zie het eerder als een begin waar je nog eens met de stofkam overheen moet om de bedoeling echt goed te vatten.

[ Voor 16% gewijzigd door ocf81 op 21-11-2025 18:49 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Julianvvz
  • Registratie: April 2013
  • Laatst online: 28-05 23:03
Dit is niet de plek voor commerciële werving.

[ Voor 92% gewijzigd door Jazzy op 24-11-2025 17:19 ]


  • FlowShotz
  • Registratie: Mei 2011
  • Laatst online: 27-05 16:12
tomhelmer schreef op vrijdag 21 november 2025 @ 14:45:
Heeft hier iemand raad?
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.
Ik zou daar best wel eens naar willen kijken voor jullie. Ben zelf ook benieuwd hoe de performance is.

  • Yaksa
  • Registratie: December 2008
  • Nu online
tomhelmer schreef op vrijdag 21 november 2025 @ 14:45:
Heeft hier iemand raad?
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.
Ik denk niet dat er LLM's bestaan die specifiek getraind zijn op theatervoorstellingen en de scripts daarvoor.
Zeker voor een theatervoorstelling denk ik dat een mens die vertaling veel beter kan omdat die persoon zich in kan leven in het script zelf. AI kan dat niet en dat zal waarschijnlijk een vrij technische vertaling opleveren.

Only two things are infinite, the universe and human stupidity, and I'm not sure about the former


  • Thonz
  • Registratie: Oktober 2008
  • Niet online
tomhelmer schreef op vrijdag 21 november 2025 @ 14:45:
Heeft hier iemand raad?
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.
Heb je hier al een oplossing voor gevonden?

Mocht je geïnteresseerd zijn, dan kan ik wel een aantal passages door een aantal verschillende modellen halen. Zo krijg je een gevoel voor de mogelijkheden.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Heeft iemand hier ervaring met het hosten van openclaw? Ik ben wel benieuwd in welke mate dit nu echt bruikbaar is, en dan vooral in combinatie met het zelf draaien van modellen.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
@ocf81 Ik heb het inmiddels werkend en draaiend met een Google Gemini Flash 2.5 model (dus via API). Inmiddels is de mailserver via telegram online. Voor zover ik het overal online lees is het echt nodig eerst het trainen (dus aanzetten van google drive, mail, websearch tools et cetera) met online modellen te doen omdat lokale modellen daar te klein voor zijn. Sowieso heb je er een behoorlijk forse GPU voor nodig (als het al lukt).

Mijn idee is de gehele basisset de komende tijd via Gemini online te krijgen en vervolgens via Ollama te proberen hoe ver ik kom met Ministral, maar volgens mij is het ook echt even spannend hoe en of dit werkend te krijgen is.

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
DeNachtwacht schreef op maandag 23 februari 2026 @ 18:04:
@ocf81 Ik heb het inmiddels werkend en draaiend met een Google Gemini Flash 2.5 model (dus via API). Inmiddels is de mailserver via telegram online. Voor zover ik het overal online lees is het echt nodig eerst het trainen (dus aanzetten van google drive, mail, websearch tools et cetera) met online modellen te doen omdat lokale modellen daar te klein voor zijn. Sowieso heb je er een behoorlijk forse GPU voor nodig (als het al lukt).

Mijn idee is de gehele basisset de komende tijd via Gemini online te krijgen en vervolgens via Ollama te proberen hoe ver ik kom met Ministral, maar volgens mij is het ook echt even spannend hoe en of dit werkend te krijgen is.
Voor zolang het nog via Gemini werkt dan…

nieuws: Na Anthropic lijkt ook Google gebruik OpenClaw bij AI-abonnementen te...

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
@Gr4mpyC3t ja ik zag het... hopen dat ik er op tijd ben alle belangrijke skills draaiend te krijgen :P

Ik heb hem overigens ook al met KIMI 2.5 via build.nividia.com aan de praat gekregen maar die is wel een stuk trager (logisch, dat is geen flash model). Dus dat is ook nog een fallback (hopen dat die blijft werken natuurlijk).

[ Voor 51% gewijzigd door DeNachtwacht op 23-02-2026 23:15 ]


  • Kimi-Alonso
  • Registratie: Juli 2006
  • Niet online
Ben nu ook met Openclaw bezig op een Ubuntu VM met de free trial van Minimax M2.5 model. Usecases die ik nu aan het testen ben zijn:

Met Telegram:
- Funda: Nieuw woningalert op basis van criteria
- Leer me elke dag een nieuw Linux command met voorbeelden
- Tweakers Pricewatch: Productmonitoring

Het werkt best goed maar er valt nog veel te leren. Ik wil hierna testen met Gmail + Google Calendar via een eigen Google account voor Openclaw.

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:50

CSB

:D

Voor de Local LLM enthausiastlingen met beperkte hardware is dit goed nieuws:
TL;DR, tot 6x meer KV cache door deze nieuwe quantization method. Dus veel langere context met kleinere modellen. _/-\o_

Met zo'n administrator heb je geen users meer nodig...


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Wat meer achtergrond: https://www.dutchitleaders.nl/news/728196/google-turboquant-de-toekomst-van-supersnel-zoeken

Ik dacht even dat het weer één van de vele clickbait video's was, en dat is het natuurlijk wel een beetje want het zijn vooralsnog theoretische verbeteringen die alleen op een H100 (volgens google) getest zijn met forse snelheids/compressiewinst. Maar het ziet er inderdaad wel indrukwekkend uit, als dat echt enigszins klopt kun je ineens met een 16GB vram kaart behoorlijk serieuze modellen draaien en komt er heel veel moois beschikbaar voor lokale AI :). Maar toch ook wel een kleine pas op de plaats: ze noemen snelheidswinst tot 8x, dus ongetwijfeld is het op heel veel plekken 'maar' een snelheidswinst van 2x o.i.d. Even de conferentie afwachten dus.

[ Voor 12% gewijzigd door DeNachtwacht op 27-03-2026 15:22 ]


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:50

CSB

:D

En hier is BitNet (aanrader om even te kijken):
Overigens, over mijn vorige post Turboquant:
llama-cpp-turboquant-guide Het lukt ze om bijv. op een RTX4070 Mobile GPU (dus 8GB) een context size van 64K te runnen.

Erg interessante tijden gaan we tegemoet voor Local LLM's. :)

[ Voor 36% gewijzigd door CSB op 02-04-2026 15:54 . Reden: turboquant toegevoegd ]

Met zo'n administrator heb je geen users meer nodig...


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
@CSB zo spectaculair is dat toch niet? Die context length is simpelweg fijn, maar in de basis gaat het natuurlijk om de grootte van het model. In het voorbeeldje van jouw site lees ik dat ze Llama-3.1-8B-Instruct Q4_K_M draaien op een 4070 met 8gb mobile, tsja leuk dat het met wat meer context kan, maar het blijft een vrij basaal model dat in de basis 5GB groot is. Die extra context is aardig, maar gezien alle clickbait flauwekul "turboquant BREAKS NVIDIA", "TurboQuant DROPPED AND KILLS CLOUD AI" had ik toch wel op zijn minst de verwachting dat Turboquant het ook mogelijk zou maken om modellen die groter zijn dan het VRAM te draaien. Dát zou echt revolutionair zijn en werd een beetje beloofd tussen alle sensatie door...

Het volgende clickbait filmpje over een 1B model sla ik dus ook gerust over... ik merk dat het pas enigszins vergelijkbaar wordt met een cloud model als je minimaal 30B / 35B hebt. Als het echt zo goed is, komt het wel op serieuze media voorbij. Merk dat ik al maanden youtube totaal niet meer kijk voor dit soort nieuwtjes want in elk filmpje wordt je schreeuwend beloofd dat je vanaf nú lokaal op je 3Dfx uit 1998 met 1 MB ram zelfs de cloud modellen van ChatGPT van enkele terabytes groot kan draaien... en vervolgens blijkt dat er een kleine tweak aan een LLM of tool is die een paar procent snelheidswinst oplevert ergens. En dat blijkt dan ergens in de laatste minuut van het filmpje waar je al teasend naartoe wordt geschreewd.

[ Voor 38% gewijzigd door DeNachtwacht op 02-04-2026 16:09 ]


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:50

CSB

:D

Tja, dan is het Bitnet filmpje niet voor jou bedoeld denk ik. Ik werd na met name het tweede filmpje waarin hij demonstreert wat een 1-bit bitnet model doet op een M4 mac, wel geïnteresseerd.
Ik zal voortaan de "clickbait filmpjes" achterwege laten, ook al was het goed bedoeld.

Met zo'n administrator heb je geen users meer nodig...


  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
Ik heb voorlopig sowieso even geen interesse meer in lokale AI-modellen.

Het is al moeilijk genoeg om een model in de cloud te laten doen wat je wil, laat staan lokaal waar het model zelf meestal beperkte context en kennis heeft.

Ik vraag het maar eens hier: is het ‘t tot nu toe echt allemaal waard om daar mee te prutsen? Na een uur draait er bij mij lokaal wel wat, maar krijg ik toch een inconsistente gebruikservaring. Of doe ik iets verkeerd?

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Op zich kun je best al wel leuke dingen doen hoor, het is alleen wat trager dan online en uiteindelijk ook toch wel altijd minder goed. Toevallig is net het nieuwe Gemma 4 model uitgekomen. Je kan hier zien welk model je kan draaien afhankelijk van je gpu:

https://unsloth.ai/docs/models/gemma-4

Gemma E4B zal je dus op een gpu met 16GB vrij royaal in 8 bit kwantisatie kunnen downloaden en gebruiken. Lekker snel en gebruiksvriendelijk is Ollama: https://ollama.com/library/gemma4

Maar idd is en blijft het vooral interessant voor hobbyisten of juist als je er écht professioneel mee aan de slag wil (met stevige GPU's). Voor gewoon casual met een taalmodel aan de slag is over het algeen een cloud model simpeler en ook fors beter. Wel is het voordeel van lokaal draaien natuurlijk dat je zeker weet dat je data echt binnen je pc blijft.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Mijn AI machine moet eigenlijk eens een opfrisbeurt krijgen. Ik heb de laatste paar maanden er niet zo veel mee gedaan. Wel gedacht aan RAG en agents, maar nooit de stap genomen om daar in te duiken. Wat ik nu heb werkt wel oké voor programmeren en vertalen. Voor kennisvragen gebruik ik de lokale AI niet (meer).

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Gr4mpyC3t schreef op donderdag 2 april 2026 @ 21:03:
Ik heb voorlopig sowieso even geen interesse meer in lokale AI-modellen.

Het is al moeilijk genoeg om een model in de cloud te laten doen wat je wil, laat staan lokaal waar het model zelf meestal beperkte context en kennis heeft.

Ik vraag het maar eens hier: is het ‘t tot nu toe echt allemaal waard om daar mee te prutsen? Na een uur draait er bij mij lokaal wel wat, maar krijg ik toch een inconsistente gebruikservaring. Of doe ik iets verkeerd?
Voor gebruikers vragen heeft het weinig waarde buiten het hobby'en. Voor agentic AI is het heel handig. Als m'n agents allemaal cloud based zouden draaien, had ik iedere maand een kleine 10.000 euro kunnen afrekenen aan token usage. Ik heb twee piepkleine LLM's op mijn werklaptop draaien voor specialistische taken. En een server met een sloot vram voor grotere modellen die voor taak gerichte agentic AI worden gebruikt. Voor het bouwen van automations gebruik ik n8n instances die gebouwd worden met een Claude subscription. En een chatgpt abbo voor vragen.

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
@Seth_Chaos welke lokale modellen gebruik jij en voor welke agents?

  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
DeNachtwacht schreef op donderdag 9 april 2026 @ 18:09:
@Seth_Chaos welke lokale modellen gebruik jij en voor welke agents?
Qwen en Deepseek op mn server. Voor een orchestrator agent die al mijn agents aan stuurt. Een assistent agent die veel van mijn dagelijkse werkzaamheden heeft overgenomen. Een test agent die al het werk van al mijn agents test na elke actie. En een rits aan agents die in n8n workflows worden aangesproken. En een separate agent die mijn home automation regelt onderhoud en op aanvraag uitbreid. Welke LLM's op mijn laptop draaien weet ik niet meer. 1 gebruik ik om 24/7 mee te luisteren en automatisch ieder gesprek te transscripten en op te slaan in Obsidian. En om acties uit te voeren na een wake woord. De andere wordt gebruikt om alle terug koppeling die mijn orchestrator agent geeft om te zetten naar spraak. Wat heel handig is wanneer je 5 a 6 terminals hebt draaien met verschillende projecten die ieder door de orchastrator worden gemanaged. Ik hoef dus niet al mijn terminals af om te weten hoe het ermee staat en ik kan gesproken antwoorden wanneer mijn archostrator iets vraagt, of wanneer ik iets gedaan wil hebben wanneer ik in een overleg zit om maar wat te noemen kan ik dat via een teams berichtje vragen.

En s' avonds wanneer ik wat beters te doen heb dan werken, laat ik vaak nieuwe projecten uitwerken en of voorbereiden en projecten coden.

En Claude gebruik ik met superpowers en skills. Voornamelijk om het werk van de lokale agents nog eens na te lopen en op te poetsen. En voor wat onderzoek. Ook die wordt aangestuurd door m'n orchastrator.

Ik kan dit ook iedereen aanraden. Begin klein. Neem een Claude account. Start Claude code in een terminal met super powers. Hang het aan een notitie tool zoals Obisidan. Leg je dagelijkse werkzaamheden eens vast in obsidian. Gebruik het gewoon een paar dagen als een soort dagboek. Vraag vervolgens Claude om de obsidian dir te gebruiken als werk folder voor Claude. En vraag eens te analyseren wat je allemaal op een dag doet en waar het denkt bij te kunnen helpen, en of welke werkzaamheden het kan overnemen. Vraag Claude dat in te regelen. Begin met zero trust. Alles wat het wil doen moet het eerst vragen. Wanneer je vertrouwen hebt dat het die taak altijd succesvol volbrengt, ga je een stapje verder en vraag je de taak automatisch uit te voeren met enkel een notificatie wanneer de taak gestart wordt, en een notificatie wanneer de taak is volbracht. En breid dat steeds verder uit, tot je op den duur meerdere agents volledig autonoom hun werk kunt laten doen. Zodra de agents autonoom beginnen te werken, verhuis je ze naar lokale AI, zodat er iets overblijft van je bankrekening (of de bankrekening van je werkgever).

Veel mensen zijn bang dat ze daarmee zichzelf overbodig maken. Maar het tegendeel is waar. Ik heb nog steeds 8 uur werk. Maar in plaats van 8 uur zelf het werk te doen stuur ik een legioen agents aan. Mijn werkgever krijgt er een veelvoud van het werk dat ik voorheen deed voor terug. Ik ben nu dus veel waardevoller voor mijn werkgever dan voorheen. En het is ook veel leuker. Want al het hersen dodende werk dat ik voorheen deed, en alles waar ik nul energie van kreeg heb ik als eerste weg geautomatiseerd.

[ Voor 38% gewijzigd door Seth_Chaos op 09-04-2026 19:17 ]


  • daily.data.inj
  • Registratie: Januari 2019
  • Niet online
Seth_Chaos schreef op donderdag 9 april 2026 @ 18:31:
[...]


Qwen en Deepseek op mn server. Voor een orchestrator agent die al mijn agents aan stuurt. Een assistent agent die veel van mijn dagelijkse werkzaamheden heeft overgenomen. Een test agent die al het werk van al mijn agents test na elke actie. En een rits aan agents die in n8n workflows worden aangesproken. En een separate agent die mijn home automation regelt onderhoud en op aanvraag uitbreid. Welke LLM's op mijn laptop draaien weet ik niet meer. 1 gebruik ik om 24/7 mee te luisteren en automatisch ieder gesprek te transscripten en op te slaan in Obsidian. En om acties uit te voeren na een wake woord. De andere wordt gebruikt om alle terug koppeling die mijn orchestrator agent geeft om te zetten naar spraak. Wat heel handig is wanneer je 5 a 6 terminals hebt draaien met verschillende projecten die ieder door de orchastrator worden gemanaged. Ik hoef dus niet al mijn terminals af om te weten hoe het ermee staat en ik kan gesproken antwoorden wanneer mijn archostrator iets vraagt, of wanneer ik iets gedaan wil hebben wanneer ik in een overleg zit om maar wat te noemen kan ik dat via een teams berichtje vragen.

En s' avonds wanneer ik wat beters te doen heb dan werken, laat ik vaak nieuwe projecten uitwerken en of voorbereiden en projecten coden.

En Claude gebruik ik met superpowers en skills. Voornamelijk om het werk van de lokale agents nog eens na te lopen en op te poetsen. En voor wat onderzoek. Ook die wordt aangestuurd door m'n orchastrator.

Ik kan dit ook iedereen aanraden. Begin klein. Neem een Claude account. Start Claude code in een terminal met super powers. Hang het aan een notitie tool zoals Obisidan. Leg je dagelijkse werkzaamheden eens vast in obsidian. Gebruik het gewoon een paar dagen als een soort dagboek. Vraag vervolgens Claude om de obsidian dir te gebruiken als werk folder voor Claude. En vraag eens te analyseren wat je allemaal op een dag doet en waar het denkt bij te kunnen helpen, en of welke werkzaamheden het kan overnemen. Vraag Claude dat in te regelen. Begin met zero trust. Alles wat het wil doen moet het eerst vragen. Wanneer je vertrouwen hebt dat het die taak altijd succesvol volbrengt, ga je een stapje verder en vraag je de taak automatisch uit te voeren met enkel een notificatie wanneer de taak gestart wordt, en een notificatie wanneer de taak is volbracht. En breid dat steeds verder uit, tot je op den duur meerdere agents volledig autonoom hun werk kunt laten doen. Zodra de agents autonoom beginnen te werken, verhuis je ze naar lokale AI, zodat er iets overblijft van je bankrekening (of de bankrekening van je werkgever).

Veel mensen zijn bang dat ze daarmee zichzelf overbodig maken. Maar het tegendeel is waar. Ik heb nog steeds 8 uur werk. Maar in plaats van 8 uur zelf het werk te doen stuur ik een legioen agents aan. Mijn werkgever krijgt er een veelvoud van het werk dat ik voorheen deed voor terug. Ik ben nu dus veel waardevoller voor mijn werkgever dan voorheen. En het is ook veel leuker. Want al het hersen dodende werk dat ik voorheen deed, en alles waar ik nul energie van kreeg heb ik als eerste weg geautomatiseerd.
Uit nieuwsgierigheid aan wat voor hersendodend werk of taken waar je 0 energie van krijgt moet ik aan denken?

  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Alles administratief, documenteren, tijdschrijven, mail bijhouden, tickets bijwerken, teams communicatie, interne blogs schrijven, presentaties opstellen, mijn agenda bijhouden inclusief het maken van afspraken, project management, trainingen voorbereiden. De complexere beheer taken uitvoeren. Probleem analyses uitvoeren, RFC's opstellen en laten goedkeuren. De changes doorvoeren uit die RFC's. Standaard changes doorvoeren zoals onboarding en offboarding van medewerkers, rechten mutaties, firewalls, switches en accespoints inrichten. Security harding, updaten van netwerk apparatuur. Server herstarts overleggen met de klant, inplannen, uitvoeren en monitoren. Automations ontwerpen, bouwen en opleveren. En ongetwijfeld nog een hoop dat ik vergeet. Alles wat ik meer als één keer precies hetzelfde moet doen wordt geautomatiseerd.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een video over Hermes, een AI agent die je lokaal kan draaien:
Het lijkt me wel interessant om eens uit te proberen.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Trasos
  • Registratie: Juli 2003
  • Niet online
Seth_Chaos schreef op donderdag 9 april 2026 @ 23:28:
Alles administratief, documenteren, tijdschrijven, mail bijhouden, tickets bijwerken, teams communicatie, interne blogs schrijven, presentaties opstellen, mijn agenda bijhouden inclusief het maken van afspraken, project management, trainingen voorbereiden. De complexere beheer taken uitvoeren. Probleem analyses uitvoeren, RFC's opstellen en laten goedkeuren. De changes doorvoeren uit die RFC's. Standaard changes doorvoeren zoals onboarding en offboarding van medewerkers, rechten mutaties, firewalls, switches en accespoints inrichten. Security harding, updaten van netwerk apparatuur. Server herstarts overleggen met de klant, inplannen, uitvoeren en monitoren. Automations ontwerpen, bouwen en opleveren. En ongetwijfeld nog een hoop dat ik vergeet. Alles wat ik meer als één keer precies hetzelfde moet doen wordt geautomatiseerd.
Weten die klanten (en je werkgever) ook dat de server updates en herstarts door AI wordt gedaan?
Ik lees nog iets te vaak "Oeps, Qwen heeft een "rm -rf"-je gedaan..." op Reddit om dat te vertrouwen.

  • i-chat
  • Registratie: Maart 2005
  • Niet online
ik moet heel eerlijk zeggen dat ik ook sceptisch ben om die 1bit modellen maar als je ziet wat het op een m4 kan doen dan zou ik eigenlijk het liefst een nieuwe rasberry pi (of soortgelijke) met een onboard gpu willen zien. hoe dan ook denk ik dat we als het op llm's aankomt we wat meer zouden moeten specialiseren op taak.

als jij iets met coding wilt doen moet je niet een llm heben die de boeken van harry potter heeft geleend. maar als je een email wilt opstellen zou het inlezen van heel veel boeken tijdschriften en kranten juist wél meerwaarde hebben in de data-set.

want laten we eerlijk zijn een 1bit model (liefst getraind op alleen nederlands- en engelstalige data) zou heel handig kunnen zijn voor de allersimpelste taken zoals: een email verzenden, een agenda beheren, je home-assistant aansturen (en dan begrijpen dat: maak het donker, hetzelfde is als doe het licht uit en dat soort saaie troep. eigenlijk spul wat je misschien nu al een gemma 4 e2b zou kunnen laten proberen maar dan met NÓG minder resources.

zo wil ik al een tijdje mijn eigen personal assistent - maar houdt vooralsnog de dure hardware het een beetje tegen. ik hoef geen AI die ingewikkelde dingen kan en zelfs als ik die wél wil zit dat al in mijn office365 account. waarin ik teksten kan laten redigeren ..

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ja, het oude adagium het juiste gereedschap voor de klus gebruiken gaat hier ook op. Gelukkig kan je daar ook gewoon een keuze in maken.. En ik denk dat je er toch niet omheen kan dat je met minimaal 16GB aan VRAM moet werken voordat je überhaupt enigszins bruikbare resultaten gaat zien. Dat lijkt min of meer de ondergrens van het bruikbare. Als het om de toekomst gaat heb ik dan ook meer fiducie in zaken zoals TurboQuant. Wat me dan wel waarschijnlijk lijkt is dat je desondanks toch veel geheugen nodig blijft hebben, want de benutting daarvan gaat door TurboQuant waarschijnlijk alleen maar omhoog.

HA aansturen kan natuurlijk al lokaal, dat had ik ook een tijdje draaien, voordat ik alles overhoop haalde en het nu weer opnieuw moet installeren. Ik moet alleen nog een slimme speaker hebben die dan met HA praat. Het is overigens beter om een relatief klein model (~12B parameters) te draaien voor dat soort dingen, omdat de interpretatie al lang genoeg duurt met zo'n klein model.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Seth_Chaos
  • Registratie: Oktober 2003
  • Niet online
Trasos schreef op maandag 4 mei 2026 @ 17:20:
[...]

Weten die klanten (en je werkgever) ook dat de server updates en herstarts door AI wordt gedaan?
Ik lees nog iets te vaak "Oeps, Qwen heeft een "rm -rf"-je gedaan..." op Reddit om dat te vertrouwen.
Yes, daar wordt ik voor betaald.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Hmm, lokale modellen zijn voor programmeren nog best goed te gebruiken, mits van voldoende omvang:

[ Voor 6% gewijzigd door ocf81 op 07-05-2026 21:19 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Jaja... is al een tijdje hoor. Qwen 3.5 en Gemma 4 waren hier al best goed in, en Qwen 3.6 is alweer uit die ook weer substantiële sprongen maakt.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 7 mei 2026 @ 23:34:
Jaja... is al een tijdje hoor. Qwen 3.5 en Gemma 4 waren hier al best goed in, en Qwen 3.6 is alweer uit die ook weer substantiële sprongen maakt.
Ik draai zelf geen benchmarks, dus het is wel fijn om dat eens gekwantificeerd te zien :)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • i-chat
  • Registratie: Maart 2005
  • Niet online
[q]HA aansturen kan natuurlijk al lokaal, dat had ik ook een tijdje draaien, voordat ik alles overhoop haalde en het nu weer opnieuw moet installeren. Ik moet alleen nog een slimme speaker hebben die dan met HA praat. Het is overigens beter om een relatief klein model (~12B parameters) te draaien voor dat soort dingen, omdat de interpretatie al lang genoeg duurt met zo'n klein model.[/q] mijn punt is / was dat een model als gema 4 e4b al op iets van 5gb schijnt te draaien. en dat is in beginsel al een multi-lingual audio/text/image model enige jammere aan dat model is dat je geen spraak-output hebt en daar dus nog een apart model voor moet inladen dat maakt het vram gebruik nog weer nét wat hoger.

wat betreft die speaker ben ik het voor 150% met je eens, het is leuk dat er her en der allerlij kickstarters rondgaan voor vervangende printplaatjes voor je google mini met een of andere esp chip en openwakeword erop maar ik wil helemaal geen printplaat is ik een kant-en-klaar product

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een video over een een MI50, de AMD instinct adapter gebaseerd op Vega 20, inclusief mooie vergelijkingen met een AMD R9700 en een AMD Strix HALO:

[ Voor 9% gewijzigd door ocf81 op 09-05-2026 13:24 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • pelican
  • Registratie: Juni 2001
  • Niet online

pelican

 

DeNachtwacht schreef op donderdag 2 april 2026 @ 23:13:

... Wel is het voordeel van lokaal draaien natuurlijk dat je zeker weet dat je data echt binnen je pc blijft.
Is dat echt altijd zo? Als je bijv open-webui gebruikt gaat die dan niet online zoeken en kan dat dan ook niet je content het web op sturen?

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
pelican schreef op zaterdag 9 mei 2026 @ 13:34:
[...]

Is dat echt altijd zo? Als je bijv open-webui gebruikt gaat die dan niet online zoeken en kan dat dan ook niet je content het web op sturen?
Via web search wordt er natuurlijk online gezocht, maar dat moet je ten eerste zelf aanzetten en ten tweede loopt dat dan dus via ollama zelf. Wel goed trouwens dat je die vraag stelt, want hoe de ollama tool met die privacy omgaat weet ik niet.

Maar het fijne van lokaal dingen stellen is dat je het ook echt weer kwijt bent zodra je naar een nieuwe tool/llm gaat. In chatgpt/copilot/gemini moet je zoveel moeite doen voor verwijderen dat op een gegeven moment privé gegevens toch ergens in de history blijven hangen en bovendien wordt het gebruikt voor trainen van nieuwe modellen. Bij jouw eigen open source model dat je lokaal draait ben je er 100% zeker van dat dat niet gebeurt want dat blijft allemaal op je pc.

[ Voor 7% gewijzigd door DeNachtwacht op 10-05-2026 12:04 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb de machine weer eens flink aan het werk gezet, maar ik merk dat modellen die het geheugen van één kaart ontspringen toch wel relatief langzaam draaien. Vermoedelijk ligt dat aan de beperkte bandbreedte tussen de twee kaarten, omdat het moederbord de kaarten op acht banen PCI-e 4.0 laat draaien. Ik overweeg om dan maar een Threadripper systeem te bouwen. Als ik de heb ik nog wel acht reepjes van 32GB DDR4, waardoor ik dan alleen een CPU en een moederbord zou hoeven kopen. Voor de generatie kaarten die ik nu gebruik (W6800 / RDNA2) is PCI-e 4.0 goed genoeg, maar als ik de kaarten opwaardeer naar iets nieuwers zal dat dan weer een beperking vormen en de restwaarde zal vermoedelijk gering zijn. Als ik voor een DDR5 systeem ga ben ik aan de beurt als het om de aanschaf van geheugen gaat, maar dan kan ik wel langer door met het moederbord. Wat zouden jullie doen?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Niet online
ocf81 schreef op vrijdag 15 mei 2026 @ 16:45:
Ik heb de machine weer eens flink aan het werk gezet, maar ik merk dat modellen die het geheugen van één kaart ontspringen toch wel relatief langzaam draaien. Vermoedelijk ligt dat aan de beperkte bandbreedte tussen de twee kaarten, omdat het moederbord de kaarten op acht banen PCI-e 4.0 laat draaien. Ik overweeg om dan maar een Threadripper systeem te bouwen. Als ik de heb ik nog wel acht reepjes van 32GB DDR4, waardoor ik dan alleen een CPU en een moederbord zou hoeven kopen. Voor de generatie kaarten die ik nu gebruik (W6800 / RDNA2) is PCI-e 4.0 goed genoeg, maar als ik de kaarten opwaardeer naar iets nieuwers zal dat dan weer een beperking vormen en de restwaarde zal vermoedelijk gering zijn. Als ik voor een DDR5 systeem ga ben ik aan de beurt als het om de aanschaf van geheugen gaat, maar dan kan ik wel langer door met het moederbord. Wat zouden jullie doen?
Een Mac Studio? Of is dat vloeken in de kerk? :P

Hoeveel geheugen heb je nu op die kaarten zitten? Als dat toereikend genoeg is en het gaat je puur om de PCI lanes, dan zou ik zelf niet de DDR5 hoofdprijs willen betalen (denk ik).

Have you tried turning it off and on again?


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Als je al een complete pc hebt staan is mac studio relatief duur, het is vooral interessant als je een nieuw systeem wil samenstellen met zoveel mogelijk vram (bovendien zijn ook deze steeds moeilijker te vinden door de geheugentekorten).

In dit geval is zo'n DDR4 uitbreiding relatief nog te doen, maar wat doe je er precies mee? Dat is nogal belangrijk om te zien wat slim is natuurlijk.

[ Voor 24% gewijzigd door DeNachtwacht op 15-05-2026 18:55 ]


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Gr4mpyC3t schreef op vrijdag 15 mei 2026 @ 18:38:
[...]

Een Mac Studio? Of is dat vloeken in de kerk? :P

Hoeveel geheugen heb je nu op die kaarten zitten? Als dat toereikend genoeg is en het gaat je puur om de PCI lanes, dan zou ik zelf niet de DDR5 hoofdprijs willen betalen (denk ik).
Momenteel heb ik twee W6800's, waarmee het totaal op 64 GB VRAM komt. Ik overweeg om er twee kaarten er bij prikken. De huidige kaarten werken op PCI-e 4.0, maar als ik bijvoorbeeld zou overstappen naar AI9700's, dan zou dat 5.0 worden en die kaarten presteren iets beter dan de W6800's maar zijn ook niet veel duurder dan W6800's. Dat is ook een van de redenen om te kijken naar PCI-e 5.0. Ze waren alleen nog niet beschikbaar toen ik vorig jaar mijn systeem bouwde. Het nadeel van de AI9700 is wel dat die nog wat problemen met P2P heeft, waardoor een opstelling met meerdere kaarten nu nog niet werkt zoals je zou willen. Daar wordt geloof ik wel aan gewerkt en de upgrade kan later ook nog.

Met een Threadripper sWRX8 systeem is het kostenplaatje ca €2200 en het geheugen wordt daarnaast achtkanaals en 256GB. Met een Threadripper sTR5 systeem met 128GB RAM, en met 4 van de 8 kanalen bezet, dus effectief dezelfde geheugenbandbreedte als de sWRX8 opstelling, zit je aan ca. €8000. Dat is dus heel fors. Hét voordeel van sTR5 is dan natuurlijk dat de bandbreedte verdubbelt en dat kan echt wat schelen in casu LLM's draaien en dat je waarschijnlijk nog een nieuwe generatie kaarten er in kan prikken zonder dat die last gaan hebben van de bandbreedte op de bus.

Een Mac Studio is niet per se vloeken in de kerk, maar ik schat dan wel in dat 128 GB aan systeemgeheugen dan wel de ondergrens is. Die is alleen tweedehands verkrijgbaar en is zeldzaam. Ook is het aanpassen aan de andere software dan weer een heel leertraject. Het voordeel van een Threadripper PC is wel dat je ook makkelijk andere dingen ernaast kan draaien omdat de LLMs dan in een VM op Proxmox worden gehuisvest.

Maar goed, ik had eerder de kosten niet echt helder. Nu ik de mogelijkheden in wenslijsten heb gezet is dat wel het geval. Aangezien de kaarten voor beide opstellingen dezelfde kosten opleveren is het ook niet heel interessant om die op te sommen in de vergelijking. Die heb ik dus niet meegenomen en het is ook eigenlijk een losstaande overweging. €2200 voor een hobbyproject is aan de prijs, maar is "te overzien". Het is zeg maar een aanzienlijk deel van budget dat ik in een jaar aan mijn servers spendeer. Als je daar de prijs van een tweedehands auto tegenoverzet voor een verdubbeling van de bandbreedte naar/tussen de kaarten, dan moet ik toch wel twee keer nadenken. Tegelijkertijd lijkt de RAM-crisis nog zeker een jaar of anderhalf door te gaan, ook als OpenAI de opties die ze hebben niet uitoefent. Het is bijna alsof de CAPEX van de AI hosters in het klein wordt nagespeeld 8)7

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het wordt toch maar de sWRX8 opstelling, want dat geheugen is me te prijzig. Ik heb er nog twee SSD's bij gedaan, waardoor het iets duurder werd.
#CategorieProductPrijsSubtotaal
1ProcessorsAMD Ryzen Threadripper Pro 5955WX Boxed€ 664,89€ 664,89
1MoederbordenASRock WRX80 Creator R2.0€ 599,-€ 599,-
2VideokaartenAMD Radeon PRO W6800€ 0,-€ 0,-
1BehuizingenSilverstone RM51€ 449,-€ 449,-
1Computer-accessoiresSilverstone RMS05-22 rails€ 106,66€ 106,66
1ProcessorkoelingNoctua NH-U14S TR4-SP3€ 90,95€ 90,95
8Geheugen internMicron MTA18ASF4G72AZ-3G2B1€ 0,-€ 0,-
1VoedingenFSP Hydro PTM PRO 1650W ATX3.0(12V-2x6)€ 251,52€ 251,52
2Interne ssd'sLexar NM790 (zonder heatsink) 4TB€ 299,-€ 598,-
Bekijk collectie
Importeer producten
Totaal€ 2.760,02
Ik ben nog op zoek naar twee extra W6800's om het totaal op 4 te brengen.

[ Voor 98% gewijzigd door ocf81 op 19-05-2026 19:43 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:50

CSB

:D

Poeh, wat een geld :X

Kleine statusupdate van mijn bescheiden, oude gamebak:

Ik heb Ollama verruild voor Llama.cpp en op Ubuntu docker geinstalleerd. Mijn zeer oude Core i7 en 24 GB DDR3 RAM i.c.m. een RX6650XT kan toch de Qwen3.6 35B A3B draaien met 35+ token/s, wat ik acceptabel vind. Dit is tot op heden het beste wat ik eruit heb kunnen halen. Dankzij MTP zijn de kleine dense modellen ook nog eens een stukje sneller geworden, dus voor agents of automation tasks is het prima.

Ik wacht nog wel ff tot de bubble barst. ;)

Met zo'n administrator heb je geen users meer nodig...


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Goedkoop is anders, maar dan kan ik wel modellen draaien die weer een slag groter zijn, of agenten die veel tegelijk doen. Overigens had ik de Noctua koeler al in huis, want van 2017 t/m 2022 heb ik een Threadripper systeem als desktop gehad. Dus dat scheelt weer €90 :)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CT
  • Registratie: September 2001
  • Laatst online: 07:16

CT

📱💻 🎮 ⌚🖥

Ik was nog geen 800 kwijt voor mijn AI rig, al had ik nog 32GB ddr4 liggen en een ssd, anders was het iets duurder geweest. Voeding en mobo+cpu was 200. Lastigste was een mobo vinden die 2x pcie x16 heeft.

Draai nu 2xRTX3080, die van taobao met 20gb vram p/s, kosten ongeveer 300 (euro) p/s en ik haal nu 32tkn/s met qwen-3.6-27b-q8 met een grote context. Dus je hoeft echt niet je spaarrekening te plunderen 😁

  • Beekforel
  • Registratie: November 2001
  • Laatst online: 18:14

Beekforel

Is eigenlijk geen vis

ocf81 schreef op maandag 4 mei 2026 @ 10:17:
Een video over Hermes, een AI agent die je lokaal kan draaien:
[YouTube: Hermes Agent Setup With Use Cases - Hermes Agent Use Cases]
Het lijkt me wel interessant om eens uit te proberen.
Ik heb gisteravond Hermes opgezet. Simpel en snel geregeld. Heb hem Gemini en OpenAI gegeven en wat dingetjes geprobeerd, werkt erg soepel. Heb hem aan een loze Gmai gekoppeld waar 6000 ongelezen spam mails, in een zucht had hij dit opgeruimd. Ik had eerder IronClaw geprobeerd met dezelfde taak, die kwam hier niet doorheen en had ook weinig doorzettingsvermogen.

Hij gaat nu voor mij op zoek naar wat hardware zodat ik thuis wat models kan gaan draaien. Ik zou zo'n agent wel in willen zetten voor wat management van documenten en notities etc. Maar dar durf ik niet met een publiek model... :S

  • CT
  • Registratie: September 2001
  • Laatst online: 07:16

CT

📱💻 🎮 ⌚🖥

CT schreef op donderdag 21 mei 2026 @ 07:15:
[..] ik haal nu 32tkn/s met qwen-3.6-27b-q8 met een grote context [..]
maak daar maar 50 tk/s van dankzij de nieuwe mtp upgrade in llama.cpp 8)
local inference maakt echt gro(o)t(ere) stappen de laatste tijd dan de grote online providers, maarja, de online providers hebben en zullen altijd de perverse prikkel hebben het slechter te maken, puur vanwege het feit dat ze betaald krijgen per token.. en lokaal wil je juist zoveel mogelijk tokens voor de laagste prijs

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 15:50

CSB

:D

CT schreef op zaterdag 23 mei 2026 @ 08:04:
[...]

maak daar maar 50 tk/s van dankzij de nieuwe mtp upgrade in llama.cpp 8)
local inference maakt echt gro(o)t(ere) stappen de laatste tijd dan de grote online providers, maarja, de online providers hebben en zullen altijd de perverse prikkel hebben het slechter te maken, puur vanwege het feit dat ze betaald krijgen per token.. en lokaal wil je juist zoveel mogelijk tokens voor de laagste prijs
Ja dat is mooi die ontwikkeling op de lokale LLM's. MTP helpt zeker. Ik wacht nog op de officiele merge van Turboquant in llama.cpp (kan nu ook met een fork, maar wil niet teveel rommelen) dan kan ik mijn context gaan ophogen en gaat het qwen3.6 MoE model van "redelijk werkbaar" naar volledig bruikbaar wat mij betreft.
Ik zat ook te kijken naar Hermes, maar daarvoor heb je modellen nodig die 64K context kunnen verwerken als minimum, en dat trekt mijn RX6650XT-tje niet.

Met zo'n administrator heb je geen users meer nodig...


  • CT
  • Registratie: September 2001
  • Laatst online: 07:16

CT

📱💻 🎮 ⌚🖥

Ja met "veel" VRAM ben je nog nergens, want dat betekend niet dat je een groter model ineens -echt- kan gebruiken, eerder, een wat kleiner model maar wel met maximale context!
Ben nu ook 1 Quant naar beneden gegaan (Q8 -> Q6) op mijn setup, zodat ik 128k context makkelijk haal, met 64k kom je eigenlijk ook net iets te kort als je net lekker bezig ben met "coderen"..
128k redt het tot nu toe net aan per task, en moet dan ook weer ff met een schone beginnen erna. Zit nog wel op 40-50token/s met de dual 3080.


Dit is met Qwen3.6-27b; Tot nu toe ben ik er erg tevreden over, heb nog amper een regel zelf hoeven typen in een project dat ik recent ben begonnen, heb alleen in de planning wat regels code gegeven, als voorbeeld van mijn architectuur en stijl, en dat blijft qwen echt mooi volgen, ik kan de code tot nu toe prima lezen.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CT schreef op zondag 24 mei 2026 @ 12:29:
Ja met "veel" VRAM ben je nog nergens, want dat betekend niet dat je een groter model ineens -echt- kan gebruiken, eerder, een wat kleiner model maar wel met maximale context!
Ik ben wel benieuwd waarom je dat nu precies zegt, want een grotere geheugenruimte maakt wel degelijk een groter model mogelijk. Het is natuurlijk wel zo dat een groter model een grotere verwerkingskracht vereist en dat het met meer I/O nodig heeft als je het over meerdere kaarten verdeelt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • CT
  • Registratie: September 2001
  • Laatst online: 07:16

CT

📱💻 🎮 ⌚🖥

ocf81 schreef op maandag 25 mei 2026 @ 10:47:
[...]

Ik ben wel benieuwd waarom je dat nu precies zegt, want een grotere geheugenruimte maakt wel degelijk een groter model mogelijk. Het is natuurlijk wel zo dat een groter model een grotere verwerkingskracht vereist en dat het met meer I/O nodig heeft als je het over meerdere kaarten verdeelt.
wat ik bedoel is dat een model passen in je geheugen 1 ding is, maar het model gebruiken een ander ding (context size) en dat is weer gerelateerd aan de KV cache, dus wil je veel info als input (maw. tijdens coderen veel souce files en andere dingen, zit je snel op 8k tokens..) dan heb je al snel 0.25gb extra nodig bij qwen3.6 27b, maar die 8k is bij een sessie nooit genoeg, 32k enigzins maar dat is al 1GB 64k werkmaar is 2GB en 128k prima te doen is dus een extra 4GB..

Als je dan bijv een.16GB kaart koopt en denkt ik haal het net om mn model te laden, ga je die 4GB nooit erbij krijgen.. dus moet je een model dat past in minder dan 12GB hebben.. maw een kleiner model.

Ik heb nu dus bijv wel 40GB, maar klein deel is al buffer (draai nog een Wayland server) 27GB gaat naar het model (+ wat overhead omdat ik 2 gpu's gebruik, dat telt nooit 100% op) en dan 4GB kv-cache (met overhead) nou dan is het wel vol...

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CT schreef op maandag 25 mei 2026 @ 14:35:
[...]

wat ik bedoel is dat een model passen in je geheugen 1 ding is, maar het model gebruiken een ander ding (context size) en dat is weer gerelateerd aan de KV cache, dus wil je veel info als input (maw. tijdens coderen veel souce files en andere dingen, zit je snel op 8k tokens..) dan heb je al snel 0.25gb extra nodig bij qwen3.6 27b, maar die 8k is bij een sessie nooit genoeg, 32k enigzins maar dat is al 1GB 64k werkmaar is 2GB en 128k prima te doen is dus een extra 4GB..

Als je dan bijv een.16GB kaart koopt en denkt ik haal het net om mn model te laden, ga je die 4GB nooit erbij krijgen.. dus moet je een model dat past in minder dan 12GB hebben.. maw een kleiner model.

Ik heb nu dus bijv wel 40GB, maar klein deel is al buffer (draai nog een Wayland server) 27GB gaat naar het model (+ wat overhead omdat ik 2 gpu's gebruik, dat telt nooit 100% op) en dan 4GB kv-cache (met overhead) nou dan is het wel vol...
Ah, dan snap ik je beter. De context is inderdaad ook en factor van belang. 16GB aan (V)RAM is inderdaad goed genoeg voor ca 14B@Q4 als je een werkbare contextomvang wil hebben. En met zo'n klein model kan je dan weer niet heel veel. Dat is waarom ik nu ook naar vier kaarten met 32GB aan VRAM opschaal. Ik hoop dan zo rond de 90B@Q8 te kunnen draaien.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
De videoselectie van vandaag:

1: Alex Ziskind heeft een mooie vergelijking tussen verschillende kwantisaties van Qwen 3 32B:
Dat je minder nauwkeurige antwoorden krijgt bij lagere kwantisaties was natuurlijk wel bekend, maar deze video illustreert dat wel mooi.

2: bycloud met een video die uitlegt hoe DeepSeek V4 de geheugenbehoefte dramatisch beperkt:

[ Voor 26% gewijzigd door ocf81 op 27-05-2026 23:02 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
@ocf81 mooi filmpje over Deepseek V4. Helaas is de geheugenbehoefte ondanks die nieuwe compressiemethodes nog steeds vrij fors en gaat lokaal draaien op consumentenhardware nog niet helemaal gebeuren :P.

Maar het zijn interessante ontwikkelingen, als dit soort technieken in een Qwen 4.0 komen bijvoorbeeld begint het allemaal echt mooi te worden. @CT ik heb zelf codex gekoppeld aan ollama en geprobeerd een aantal pogingen gedaan als test een vrij stevige fullstack website te laten bouwen (denk aan "bouw de tweakers nieuwspagina en pricewatch na") door zowel 35B als 27B, maar merk dan dat je toch tegen de limieten aan loopt. Bij heel grote opdrachten is het uren wachten om uiteindelijk geen resultaat te krijgen. Kleinere websitejes (spelletje oid) gaat echter al verrassend goed :)

  • CT
  • Registratie: September 2001
  • Laatst online: 07:16

CT

📱💻 🎮 ⌚🖥

DeNachtwacht schreef op donderdag 28 mei 2026 @ 08:43:

[..]@CT ik heb zelf codex gekoppeld aan ollama en geprobeerd een aantal pogingen gedaan als test een vrij stevige fullstack website te laten bouwen (denk aan "bouw de tweakers nieuwspagina en pricewatch na") door zowel 35B als 27B, maar merk dan dat je toch tegen de limieten aan loopt. Bij heel grote opdrachten is het uren wachten om uiteindelijk geen resultaat te krijgen. Kleinere websitejes (spelletje oid) gaat echter al verrassend goed :)
35B model zou ik links laten liggen, die heeft maar 3B active parameters, en de 27B is volledig active geloof ik, dat maakt 'm veel "intelligenter" met name voor coding, alleen alles onder de Q8 (of Q6_XL met qwen3.6) lijkt wel snel dommer te worden.

Verder is het harnass erg belangrijk, heb zelf geen ervaring met Codex, maar lijkt mij opzich wel een capabele Agent? Gebruik nu met veel Zed, die agent pakt het wel goed op. Maar je moet sowieso wel ff wachten uiteraard, 40-50tk/s is niet langzaam maar ook geen premium-opus-snelheid. En wat erg helpt is eerst 'brainstormen' en een soort plan(.md) maken met stappen en wat je kwa structuur verwacht en welke libraries etc. Eigenlijk 'droog' programmeren.

Als je dan tevreden bent over dit (gigantische) plan en dan vraag je gewoon of de agent er aan kan beginnen de implementatie, per stap bijv om de context-size goed in de gaten te houden, dat gaat echt super goed hier iig.

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 28 mei 2026 @ 08:43:
@ocf81 mooi filmpje over Deepseek V4. Helaas is de geheugenbehoefte ondanks die nieuwe compressiemethodes nog steeds vrij fors en gaat lokaal draaien op consumentenhardware nog niet helemaal gebeuren :P.

Maar het zijn interessante ontwikkelingen, als dit soort technieken in een Qwen 4.0 komen bijvoorbeeld begint het allemaal echt mooi te worden.
Ik snap niet waarom dat op consumentenhardware niet ook relevant zou kunnen zijn?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
@ocf81 ik snap je reactie niet? Deepseek V4 heeft ook in de flash variant meer dan 250GB VRAM nodig, dat is dus voor lokaal draaien op consumentenhardware totaal niet van toepassing?

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 28 mei 2026 @ 10:00:
@ocf81 ik snap je reactie niet? Deepseek V4 heeft ook in de flash variant meer dan 250GB VRAM nodig, dat is dus voor lokaal draaien op consumentenhardware totaal niet van toepassing?
Ja, dat is voor nu en voor dat specifieke model. Het mechanisme zal, zo neem ik aan, ook beschikbaar komen voor lokaal gedraaide modellen?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!


  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 20:53
Ehm, ja maar precies daar onder zeg ik
Maar het zijn interessante ontwikkelingen, als dit soort technieken in een Qwen 4.0 komen bijvoorbeeld begint het allemaal echt mooi te worden
Dus we zijn het gewoon eens?

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op donderdag 28 mei 2026 @ 10:04:
Ehm, ja maar precies daar onder zeg ik


[...]

Dus we zijn het gewoon eens?
Uiteindelijk wel, hoewel ik dat in eerste instantie niet zo begreep. Het punt van het noemen van zo'n video in deze discussie is natuurlijk nooit om te suggereren dat we letterlijk DeepSeek V4 lokaal gaan draaien, maar om te kijken waar het heen gaat en wat dat kan betekenen als zo'n techniek eenmaal doorsijpelt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie is slavernij. Kies je eigen weg!

Pagina: 1 2 Laatste