© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Een MacBook Pro M4 Pro met 16 GPU-cores en 48 GB RAM. Het geheugen is gekoppeld met de GPU en de bandbreedte is vrij hoog.ocf81 schreef op maandag 10 maart 2025 @ 16:30:
@Gr4mpyC3t Welke GPU heb jij gebruikt om je model te hosten?
Was je van plan met een losse kaart aan de slag te gaan?
Have you tried turning it off and on again?
Ja, ik was van plan om een VM te maken in Proxmox en deze dan te voorzien van een GPU.Gr4mpyC3t schreef op maandag 10 maart 2025 @ 16:36:
[...]
Een MacBook Pro M4 Pro met 16 GPU-cores en 48 GB RAM. Het geheugen is gekoppeld met de GPU en de bandbreedte is vrij hoog.
Was je van plan met een losse kaart aan de slag te gaan?
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Reproduceren is nu moeilijk, maar als ik hem iets vergelijkbaars probeer te laten maken. Ging toen om een refactor naar het observer pattern, als ik hem nu vanuit t niets een voorbeeld laat maken, krijg ik een stuk code wat wel draait, maar iig niet doet wat qwen claimt dat het doet:
En dat laatste item gaat het dus mis: `NameObserver` and `AddressObserver` are concrete observers that print a message when their respective attribute is changed. Klopt dus niet. Want voor elke update triggerren beide observers...To ensure that the observers are triggered only when the `name` or `address` attributes actually change, we can use property decorators with setters. These setters will check if the new value is different from the current value and call the `notify` method if they differ.
Here's the updated implementation:
Python:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 from dataclasses import dataclass # Observer Interface class Observer: def update(self, person): pass # Subject Class @dataclass class Person: _name: str = None _address: str = None observers: list[Observer] = None def __post_init__(self): self.observers = [] def attach(self, observer: Observer): if observer not in self.observers: self.observers.append(observer) def detach(self, observer: Observer): try: self.observers.remove(observer) except ValueError: pass def notify(self): for observer in self.observers: observer.update(self) @property def name(self): return self._name @name.setter def name(self, value): if self._name != value: self._name = value self.notify() @property def address(self): return self._address @address.setter def address(self, value): if self._address != value: self._address = value self.notify() # Concrete Observers class NameObserver(Observer): def update(self, person): print(f"Name changed to: {person.name}") class AddressObserver(Observer): def update(self, person): print(f"Address changed to: {person.address}") # Example usage person = Person() name_observer = NameObserver() address_observer = AddressObserver() person.attach(name_observer) person.attach(address_observer) person.name = "John Doe" person.address = "123 Elm Street"
In this example:
- The `Person` class has private attributes `_name` and `_address`.
- Property decorators (`@property`, `@name.setter`, `@address.setter`) are used to define getters and setters for the public properties `name` and `address`.
- In the setters, the new value is compared with the current value. If they differ, the attribute is updated, and the `notify` method is called.
- The `Observer` interface defines an `update` method that concrete observers must implement.
- `NameObserver` and `AddressObserver` are concrete observers that print a message when their respective attribute is changed.
This ensures that the observers are triggered only when the `name` or `address` attributes actually change.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Ja ongetwijfeld, maar daar wordt de code die er uit komt niet beter van denk ik.ocf81 schreef op maandag 10 maart 2025 @ 17:48:
Kan je daar nog wat aan doen door de context window aan te passen o.i.d.?
Have you tried turning it off and on again?
- 8gb is te weinig
- zelfs als de code wel draait/compiled etc, dan nog kan het compleet iets anders doen dan dat zelfs de AI zelf claimt dat het doet.
| Model | Parameters | Size in GB | Download |
|---|---|---|---|
| Moondream 2 | 1.4B | 0,829 | ollama run moondream |
| Llama 3.2 | 1B | 1,3 | ollama run llama3.2:1b |
| Gemma 2 | 2B | 1,6 | ollama run gemma2:2b |
| Llama 3.2 | 3B | 2 | ollama run llama3.2 |
| Phi 4 Mini | 3.8B | 2,5 | ollama run phi4-mini |
| Code Llama | 7B | 3,8 | ollama run codellama |
| Llama 2 Uncensored | 7B | 3,8 | ollama run llama2-uncensored |
| Mistral | 7B | 4,1 | ollama run mistral |
| Neural Chat | 7B | 4,1 | ollama run neural-chat |
| Starling | 7B | 4,1 | ollama run starling-lm |
| LLaVA | 7B | 4,5 | ollama run llava |
| DeepSeek-R1 | 7B | 4,7 | ollama run deepseek-r1 |
| Llama 3.1 | 8B | 4,7 | ollama run llama3.1 |
| Granite-3.2 | 8B | 4,9 | ollama run granite3.2 |
| Gemma 2 | 9B | 5,5 | ollama run gemma2 |
| Llama 3.2 Vision | 11B | 7,9 | ollama run llama3.2-vision |
| Phi 4 | 14B | 9,1 | ollama run phi4 |
| Gemma 2 | 27B | 16 | ollama run gemma2:27b |
| QwQ | 32B | 20 | ollama run qwq |
| Llama 3.3 | 70B | 43 | ollama run llama3.3 |
| Llama 3.2 Vision | 90B | 55 | ollama run llama3.2-vision:90b |
| Llama 3.1 | 405B | 231 | ollama run llama3.1:405b |
| DeepSeek-R1 | 671B | 404 | ollama run deepseek-r1:671b |
Zoals je ziet passen de meeste modellen wel in 16GB, maar ik weet niet of je dan ook nog andere zaken daar in kwijt moet.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
En dan nog is RAM natuurlijk niet het enige dat telt voor de berekeningen. Het aantal TOPS dat een NPU aankan speelt ook een rol.ocf81 schreef op dinsdag 11 maart 2025 @ 09:19:
Ja, ik heb gisteren even gezocht naar wat er op een desktopkaart past, en ik kwam de volgende tabel tegen:
Model Parameters Size in GB Download Moondream 2 1.4B 0,829 ollama run moondream Llama 3.2 1B 1,3 ollama run llama3.2:1b Gemma 2 2B 1,6 ollama run gemma2:2b Llama 3.2 3B 2 ollama run llama3.2 Phi 4 Mini 3.8B 2,5 ollama run phi4-mini Code Llama 7B 3,8 ollama run codellama Llama 2 Uncensored 7B 3,8 ollama run llama2-uncensored Mistral 7B 4,1 ollama run mistral Neural Chat 7B 4,1 ollama run neural-chat Starling 7B 4,1 ollama run starling-lm LLaVA 7B 4,5 ollama run llava DeepSeek-R1 7B 4,7 ollama run deepseek-r1 Llama 3.1 8B 4,7 ollama run llama3.1 Granite-3.2 8B 4,9 ollama run granite3.2 Gemma 2 9B 5,5 ollama run gemma2 Llama 3.2 Vision 11B 7,9 ollama run llama3.2-vision Phi 4 14B 9,1 ollama run phi4 Gemma 2 27B 16 ollama run gemma2:27b QwQ 32B 20 ollama run qwq Llama 3.3 70B 43 ollama run llama3.3 Llama 3.2 Vision 90B 55 ollama run llama3.2-vision:90b Llama 3.1 405B 231 ollama run llama3.1:405b DeepSeek-R1 671B 404 ollama run deepseek-r1:671b
Zoals je ziet passen de meeste modellen wel in 16GB, maar ik weet niet of je dan ook nog andere zaken daar in kwijt moet.
Have you tried turning it off and on again?
Continue ook heel kort gebruikt, maar zit nu alleen maar in de weg van de standaard Code completions.Gr4mpyC3t schreef op woensdag 5 maart 2025 @ 11:51:
[...]
Tot nu toe is de ervaring wel prima. Zelf gebruik ik Ollama (lokaal) en Open WebUI (Docker) om een ChatGPT-achtige ervaring op mijn eigen machine te draaien. Dat gaat goed, al is het wel iets trager dan de online diensten. Geeft niet, mijn input en output blijft dan in ieder geval op mijn eigen systeem. Voor generatieve AI pak ik phi4, ondersteunt tegenwoordig ook Nederlands.
Vorig jaar heb ik ook in Visual Studio Code aangerommeld met extensies (Continue) die je aan Ollama kunt koppelen, maar ik merk dan toch dat de response net iets te traag is voor functies als auto-complete. Het wachten totdat het model met een aanvulling komt haalt de snelheid uit de workflow. Je kunt Continue ook koppelen aan publieke AI-modellen, maar dat gaat dan voorbij aan het initiële doel (privacy). Nog niet 100% tevreden over dus, en laat het dan ook links liggen (voor nu).
Heb me er mogelijk niet goed genoeg in verdiept en niet goed geconfigureerd.
Ik weet nog wel de eerste keer dat ik met bolt.new aan het spelen was, ik kon als niet frontender binnen de credits een web app maken die spraak opnam en uitschreef met taal herkenning.
Die hebben ook een publieke variant, bolt.diy, waar ik ook nog wel meer naar wil kijken voor frontend werk.
Ik ben zelf ook wel naar een zelf gehoste code assisten op zoek, maar misschien wel zelf iets maken buiten de IDE om. Ik werk ook aan mijn eigen architectuur/design/code superprompts van 10k+ waar niet alle modellen en code assistents mee om kunnen gaan.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
- Ubuntu 24.04 LTS
- Docker
- Portainer
- Watchtower
- Ollama
- OpenwebUI
- AnythingLLM
Leuk om mee te experimenten en vooral erg leerzaam om op te zetten. Ik probeer nu om een multi-agent setup te maken. Voornamelijk eerst voor het leerproces, maar als het uiteindelijk werkt wil ik wellicht wel gaan investeren in nieuwe(re) hardware om echt iets fatsoenlijks neer te zetten. (AMD is nou niet bepaald veel gebruikt in local LLM land)
Let wel, tot vorig jaar had ik amper kennis van al deze systemen en van sommige onderdelen weet ik nog steeds maar een fractie, maar het werkt en daar gaat het om.
Ik gebruik bovenstaand niet perse voor coding, maar ik probeer juist een soort van Assistent te bouwen waar ik taken kan offloaden bij het onderzoeken van zaken. Daarnaast zou ik de LLM wel willen koppelen aan HAOS en eventueel als voice-assistant gebruiken om mijn Google Home's te vervangen.
Ik ga dit topic eens volgen om meer praktische informatie op te halen.
Met zo'n administrator heb je geen users meer nodig...
Ollama is geïnstalleerd met het bash script: "curl -fsSL https://ollama.com/install.sh | sh". Zou de docker versie het beter doen?
[edit] toch maar lokaal even Ollama geïnstalleerd, en dan draait ie in één keer op de GPU. Ik doe kennelijk niets niet helemaal goed, of de 7800XT is op de een of andere manier niet zo geschikt voor Ollama?`
[edit2] Toch maar Debian de deur uit gedaan voor de server en, net als op mijn Desktop, OpenSUSE Tumbleweed gebruikt. Het werkt nu als een tierelier
[edit3]Er was toch nog een hobbeltje in de weg: Continue wilde niet babbelen met Ollama op de server. Nu eindelijk alles aan de praat gekregen! Ollama met een GPU op een server, en vervolgens verder in VScodium, vragen beantwoorden en antwoorden geven. Ik had een firewallregel op de server over het hoofd gezien, wat me behoorlijk wat frustratie opleverde. Ik had niet bedacht dat de tests die ik met curl deed eigenlijk naar localhost gingen. 😅 Om eerlijk te zijn, ik ben nog steeds een grote fan van Debian vanwege de eenvoud bij het hosten van servers. Maar het kan ook zijn dat ik er zo gewend ben geraakt dat ik me eigenlijk ongemakkelijk voel om naar iets anders over te stappen.
[ Voor 56% gewijzigd door ocf81 op 31-03-2025 16:18 ]
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Een frontend / Webinterface voor je LLM experience zoals je bij ChatGPT gewend bent. Daarnaast wordt er voortgeborduurd op "agent-achtige" zaken, zoals Webscraping en dergelijken. Ik vind het een fijnere tool dan OpenwebUI voor het gebruik van Ollama voor "basis uitzoekwerk" zeg maar. Ben me ook nog aan het orienteren op wat nou de juiste tooling moet zijn want het schiet allemaal als paddestoelen uit de grond de laatste tijd. Er is nog niet echt een goeie standaard...ocf81 schreef op maandag 31 maart 2025 @ 15:25:
@CSB Wat is AnythingLLM precies? Ik krijg niet zo'n goed idee van wat het nu precies doet als ik de site er op nasla.
Edit: goed om te lezen dat je je GPU aan de praat hebt. Ik neem aan dat deze Linux distro ondersteuning heeft voor Rocm? In mijn Ubuntu distro zat het een paar maanden terug nog niet, dus baalde al dat ik "de nieuwste" had geinstalleerd.
[ Voor 14% gewijzigd door CSB op 31-03-2025 17:16 ]
Met zo'n administrator heb je geen users meer nodig...
Voorlopig houd ik het even bij Open WebUI, want dat doet voor nu al genoeg. Ik zit nog in de fase van het spelenderwijs ontdekken, zeg maarCSB schreef op maandag 31 maart 2025 @ 17:15:
[...]
Een frontend / Webinterface voor je LLM experience zoals je bij ChatGPT gewend bent. Daarnaast wordt er voortgeborduurd op "agent-achtige" zaken, zoals Webscraping en dergelijken. Ik vind het een fijnere tool dan OpenwebUI voor het gebruik van Ollama voor "basis uitzoekwerk" zeg maar. Ben me ook nog aan het orienteren op wat nou de juiste tooling moet zijn want het schiet allemaal als paddestoelen uit de grond de laatste tijd. Er is nog niet echt een goeie standaard...
Ja, dat was, zoals je kan teruglezen in mijn edits, in eerste instantie nog wel even een probleem. Nadat ik PCI-e passthrough aan de praat kreeg had Ollama toch wat problemen met het gebruiken van de GPU. Toen maar OpenSUSE Tumbleweed erbij gepakt, want met een rollende release is de kans op verouderde software een stuk minder. En toen deed alles het opeens wel. Ollama pakt ROCm er zelf bij, dus daar hoef je eigenlijk verder niet mee te klooien. Maar ik denk dat de kernel van Debian 12 gewoon te oud was waardoor het toch niet werkte met die distro.CSB schreef op maandag 31 maart 2025 @ 17:15:
Edit: goed om te lezen dat je je GPU aan de praat hebt. Ik neem aan dat deze Linux distro ondersteuning heeft voor Rocm? In mijn Ubuntu distro zat het een paar maanden terug nog niet, dus baalde al dat ik "de nieuwste" had geinstalleerd.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Met zo'n administrator heb je geen users meer nodig...
Ik kwam vandaag het volgende filmpje tegen in mijn feed, het lijkt me wel een aardige uitleg van wat dat zou kunnen inhouden:
Maar eigenlijk wordt de term agent dan gekaapt door het LLM volk. Het is eigenlijk een begrip dat veel breder kan worden gezien:
[ Voor 29% gewijzigd door ocf81 op 31-03-2025 22:35 ]
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Hiermee zou je Ollama meerdere requests parellel aan elkaar moeten kunnen laten draaien op één systeem. Logischerwijs wordt het dan door het systeem gequeued en dus zal de dee query langer duren, maar je kunt wél meerdere taken tegelijk afvuren, waardoor het dus mogelijk zou moeten zijn om meerdere tasks parellel uit te voeren. Voor mijn usecase zou ik al blij zijn met tasks in sequence, zoals bijv. Search topic X, scrape, summarize, commit to memory (RAG) of zoiets.
Met zo'n administrator heb je geen users meer nodig...
Met continue kan je voor verschillende taken andere modellen aanwijzen. Weet iemand ook of je dat werk kan verdelen over meerdere machines zonder dat dit de werking van continue verstoort?
[ Voor 12% gewijzigd door ocf81 op 01-04-2025 19:48 ]
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Verschillende fabrikanten zijn nu bezig om met NPU mini-pc'tjes in deze markt te springen. Een Mac kan het natuurlijk al een tijdje dankzij het Unified Memory principe. Maar een systeem als dit bijv.:
https://www.hp.com/lameri...rkstations/z2-mini-a.html
is wel interessant, mits de prijs er naar is.
Met zo'n administrator heb je geen users meer nodig...
Framework bied de zelfde ryzen ai max aan. Door ze door te verbinden via usb4 heb je een 40gbit netwerkverbinding tussen de machines. 2000 USD voor het 128GB moederbord. Voor een netjes geconfigureerd systeempje kan het tot ~3k per machine oplopen. Voor de komende maanden helaas al uitverkocht.CSB schreef op donderdag 3 april 2025 @ 10:05:
Het jeukt bij mij ook.Die 8GB RX6650XT trekt het basic "chat" gebeuren wel maar als je wat meer wilt dan houd het snel op.
Verschillende fabrikanten zijn nu bezig om met NPU mini-pc'tjes in deze markt te springen. Een Mac kan het natuurlijk al een tijdje dankzij het Unified Memory principe. Maar een systeem als dit bijv.:
https://www.hp.com/lameri...rkstations/z2-mini-a.html
is wel interessant, mits de prijs er naar is.
@NESFreak Dat is inderdaad ook iets wat ik heb overwogen, maar ik schat in dat, hoewel er een flinke sloot relatief snel geheugen op de FW DP borden zit, de Strix Halo APU qua verwerkingskracht tekort gaat schieten om een model dat in het geheugen past op een beetje deftige snelheid te presenteren.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Oeh, scalable, dat is iets waar ik nog niet aan gedacht had. Hoeveel stroom trekt zo'n systeem ongeveer? Moet nog wel enigszins rekening houden met de WAF.NESFreak schreef op donderdag 3 april 2025 @ 10:13:
[...]
Framework bied de zelfde ryzen ai max aan. Door ze door te verbinden via usb4 heb je een 40gbit netwerkverbinding tussen de machines. 2000 USD voor het 128GB moederbord. Voor een netjes geconfigureerd systeempje kan het tot ~3k per machine oplopen. Voor de komende maanden helaas al uitverkocht.
[Afbeelding]
Met zo'n administrator heb je geen users meer nodig...
https://frame.work/nl/en/desktop?tab=specsCSB schreef op donderdag 3 april 2025 @ 11:19:
[...]
Oeh, scalable, dat is iets waar ik nog niet aan gedacht had. Hoeveel stroom trekt zo'n systeem ongeveer? Moet nog wel enigszins rekening houden met de WAF.
CPU heeft een 140W tdp. Complete systeem komt met een 400W voeding. Benchmarks zijn er nog niet echt. Maar puur op basis van geheugenbandbreedte kom je iets als llama 3.3 70b,q4 (43GB) tot zo'n 6 t/s uit.
[ Voor 4% gewijzigd door NESFreak op 03-04-2025 11:40 ]
Dat is redelijk wat power zonder dedicated GPU. Jammer alleen dat bijna al dit soort systemen vast zitten (no pun intended) aan gesoldeerd geheugen voor het Unified memory systeem, waardoor upgraden een kostbaar grapje wordt.NESFreak schreef op donderdag 3 april 2025 @ 11:32:
[...]
https://frame.work/nl/en/desktop?tab=specs
CPU heeft een 140W tdp. Complete systeem komt met een 400W voeding. Benchmarks zijn er nog niet echt. Maar puur op basis van geheugenbandbreedte kom je iets als llama 3.3 70b,q4 (43GB) tot zo'n 6 t/s uit.
Ik zie ze wel als paddestoelen oppoppen deze systemen, dus ff in de gaten houden.
Met zo'n administrator heb je geen users meer nodig...
Maar waar ik wel een beetje tegen aan loop is dat concepten compleet verkeerd begrepen worden. Daarnaast blijft het nog steeds een 'computer' waar je mee praat. Je moet heel precies zijn in je instructies (iedereen die ooit geprogrammeerd heeft begrijpt denk ik wel wat ik daar mee bedoel.)
Als iemand nog tips heeft om daar beter in te worden, dan hoor ik die graag!
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Met zo'n administrator heb je geen users meer nodig...
Heb je al geprobeerd om documentatie mee te sturen in je prompt? In ieder geval GitHub Copilot en ChatGPT gebruiken dit dan als context om code te genereren. Dit werkt voor mij vaak beter dan enkel een prompt. Kan Continue dit ook?ocf81 schreef op vrijdag 4 april 2025 @ 17:21:
Ik heb inmiddels een paar dagdelen gespeeld met continue om een nieuwe Arma 3 game mode te maken. Ik moet zeggen dat ik het zeer leuk speelgoed vind! Ik ben super productief en het maakt programmeren ook minder een sleur voor mij.
Maar waar ik wel een beetje tegen aan loop is dat concepten compleet verkeerd begrepen worden. Daarnaast blijft het nog steeds een 'computer' waar je mee praat. Je moet heel precies zijn in je instructies (iedereen die ooit geprogrammeerd heeft begrijpt denk ik wel wat ik daar mee bedoel.)
Als iemand nog tips heeft om daar beter in te worden, dan hoor ik die graag!
En oh ja, subjectieve zaken als 'de code moet veilig zijn' of 'het moet wel mooi zijn' moet je ook zo veel mogelijk vermijden. Klinkt makkelijk, is het stiekem niet.
Have you tried turning it off and on again?
Continue leunt op de dienstverlening van derden. In mijn geval dus Ollama en de modellen die ik zelf host. Continue heeft een aantal context providers die je kan specificeren: code, docs, diff, terminal, problems, folder en codebase. Ik heb nog niet van alle soorten provider goed in de gaten wat het precies doet. Tot nu toe heb ik alleen code meegestuurd, dus dat is iets waar ik eens mee aan de slag moet.Gr4mpyC3t schreef op vrijdag 4 april 2025 @ 22:46:
[...]
Heb je al geprobeerd om documentatie mee te sturen in je prompt? In ieder geval GitHub Copilot en ChatGPT gebruiken dit dan als context om code te genereren. Dit werkt voor mij vaak beter dan enkel een prompt. Kan Continue dit ook?![]()
En oh ja, subjectieve zaken als 'de code moet veilig zijn' of 'het moet wel mooi zijn' moet je ook zo veel mogelijk vermijden. Klinkt makkelijk, is het stiekem niet.
Maar ik merk wel dat de modellen uit hun context lopen. Opeens worden er dingen vergeten of verdraaid die eerder in het gesprek wel goed werden begrepen. Het vergroten van de context is iets waar ik naar moet kijken, maar dat ga ik eens onderzoeken als ik straks die W6800 met 32GB aan VRAM in mijn Ollama VM heb zitten.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Ik denk dat het glas inmiddels wel half vol zit. Ja, er is nog een lange weg te gaan, maar er wordt nu wel steeds meer mogelijk. Uiteindelijk is het gewoon een nieuwe set vaardigheden die, in mijn geval althans, wel een positieve ervaring heeft opgeleverd.CSB schreef op vrijdag 4 april 2025 @ 22:25:
Ja, alles valt of staat met je prompt begrijp ik van alles wat ik tot nu toe gelezen heb. Ik moet zeggen, hoe meer ik me in de materie verdiep hoe meer ik denk dat het geheel nog LANG niet zover is dat je het een echte A.I. kunt noemen. Goed, het is wel leuk om mee te rommelen maar de ideeën die ik initieel had heb ik maar laten varen, dat is nog te complex om met mijn beperkte kennis en consumer grade hardware uit te voeren.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.
Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?
[ Voor 22% gewijzigd door Ernemmer op 06-04-2025 12:09 ]
Tja, dat is inderdaad de vraag die ik voor mijzelf probeer te beantwoorden. Ik heb het idee dat met ca. 14b je oppervlakkige, maar vaak, doch niet altijd, redelijk goede antwoorden krijgt. Als je door gaat graven gaat het echter vaak mis. Ik ben nu bezig om de stap naar ca. 70b te maken, in de hoop dat je daar dan echt iets mee kan. Maar dan zit je wel aan minimaal €2000 aan hardware. Ik hoop dat ik die hardware ook weer kwijt kan als het op niks uitloopt, zodat het bij een paar honderd euro aan leergeld blijft, wat ik te overzien vindt.Ernemmer schreef op zondag 6 april 2025 @ 12:08:
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?
Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.
Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?
Hier een vergelijking van een chat die ik had met Llama-3.2 Vision 11b en ChatGPT over twee ontwerpen van een printerkast, waarbij een vriend van mij zijn ChatGPT abonnement voor de vergelijking ter beschikking stelde.
Plaatje 1:

Plaatje2:

Chat Llama-3.2 Vision 11b
ChatGPT-4o
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Daar merk ik dat als ik een combinatie maak van tools ik het beste geholpen ben, als ik het met 1 tool probeer op te lossen dan loop ik tegen de beperkingen aan. Wellicht is dat voor alleen code met hulp van AI ook een goede optie om uit te proberen.
Voorbeeld:
Ik gebruik Perplexity om eerst vragen te stellen over hou ik iets op zou lossen. Hier combineer ik eigen context met wat Perplexity Deep Research online kan vinden. Dat zijn wat vragen heen en weer voor aanscherping tot ik denk te hebben wat ik zoek. Daar vraag ik een samenvatting van.
Die samenvatting geef ik mee aan Claude, die vraag ik met mijn context "ik ben een programmeur die etc" plus de samenvatting een goed prompt te schrijven voor Bolt.new of ChatGPT. In Bolt gaat mijn oplossing voor test preview binnen die app maar als ik het live een rondje wil gebruiken en testen dan via Supabase voor een echte backend.
Lang verhaal kort: gebruik meerdere ai tools in een rij voor het beste resultaat en switch modellen gebaseerd op de context die je hebt. Hoop dat het iemand helpt hier!
#huiskamer | Amsterdammert | Some days you're the pigeon, some days you're the statue | Zenbook S13 UM5302TA-LV067W | LG 40WP95CP-W | HP USB-C dock G5
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Op je eerste vraag, je investering kosten kan je genoeg maanden abonnement nemen en als je echt hele grote modellen te gebruiken gaat het gaat echt in de papieren lopen. Maar thuis heb je een keuze welk model je wilt gebruiken en zo ook of je een ongecensureerde model wilt gebruiken.Ernemmer schreef op zondag 6 april 2025 @ 12:08:
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?
Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.
Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?
En ook niet te vergeten je data blijft lokaal dat vind ik nog het meeste waard.
Ga je met stable-diffusion aan de slag dan heb je ook alle vrijheid en als ik gratis chat-gpt Vergelijk met nu thuis met 3090 en SD dan is de snelheid niet te vergelijken en de kwaliteit van output ook niet ( kost wel nodige vrije uurtje om opzet goed te krijgen
Taal fouten inbegrepen ;)
Mijn AI Art YouTube kanaal
Als iemand co-auteur wil worden om een bijdrage te leveren, dan is dat geen probleem.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
als ik dan op YT zie dat mensen zelfs al met raspberry pi's aan de slag gaan dan heb ik al helemaal zoiets van uh ok?
het grootste probleem waar ik dan mee zit is hoe zit het nu echt, en in hoeverre zou ik bijvoorbeeld een mining adaptor uitvoering: Delock 41427 kunnen gebruiken om een paar gtx 1050 of intel ark a380s toe te voegen
of mis ik nu iets cruciaals?
[ Voor 23% gewijzigd door i-chat op 16-04-2025 22:50 ]
Mijn vermoeden is dat het inladen van een 27b model best lang gaat duren als je dan 10 1050's met hun 3GB aan VRAM naast elkaar zet en over USB gaat inladen. Ik weet ook niet wat het doet met het verwerken van de context. Kleine modellen die op een RPi gaan draaien lijken me vooral spielerij. Je merkt echt een aanzienlijk verschil als je grotere modellen gaat draaien. Het enige model dat ik nog draai dat kleiner dan 30b is, is Phi4, omdat er geen grotere versie van is. En een GPU is echt koning als het om verwerkingssnelheid gaat.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Discussie op r/LocalLLaMA
Persoonlijk denk ik dat het aan de prijs zal liggen of deze kaart interessant zal zijn. Zoals al genoemd is de uitvoering: AMD Radeon Pro W7900 waarschijnlijk sneller en heeft die meer geheugen aan boord, maar deze kost een lieve duit.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Op dit moment draaien we Ollama met een OpenWeb UI voor de interface. Daarnaast draait een LiteLLM proxy om externe modellen via dezelfde omgeving aan te bieden.
We willen de omgeving wat opwaarderen om grotere modellen te kunnen draaien. We willen via een RAG model eigen documenten en kennis gebruiken in bestaande modellen.
Technisch werkt het, maar we willen nu een server/workstation aanschaffen om wat meer prestaties uit onze omgeving te halen. Hebben jullie al moderne(re) hardware aanschaft specifiek voor het laten werken van een LLM, niet om iets te gaan trainen.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
óf je kiest voor een compleet systeem met gesoldeerd Unified RAM met hoge kloksnelheden die je kunt inzetten om grotere modellen in te laden. Echter is de performance daarvan ook niet heel best en zijn dergelijke systemen voor "thuisgebruik" erg duur.
Al met al ben je op zijn minst 1000 tot 3000 euro lichter en heb je alsnog een systeem dat beperkt is.
In mijn situatie wil ik wel wat investeren maar ik vind 1000 euro voor een hobbyprojectje echt wel teveel.
Met zo'n administrator heb je geen users meer nodig...
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Mijn specs: RTX 2080 8GB vram, I7-9850H, 32GB 2227Mhz ram. (oud beestje, heeft me €350 gekost)
Mijn conclusie is dat het heel erg uitmaakt wat je wil doen met je llm, waar je deze voor kan gebruiken.
Sowieso moet ik de verkleinde modellen gebruiken (GGUF), maar dat is niet zo erg omdat bij dat uitvinden wat een goed model je voor je is, ik niet tientallen GBs hoef te downloaden, maar max 5.
Daarnaast is de grootte van de context size (de hoeveelheid tekst die het model in het geheugen kan houden) minstens zo belangrijk als het model zelf. Voor iedereen die beperkt is in VRAM, zoals ik en toch een model lokaal op de GPU wil draaien, raad ik het volgende aan:
- Ga voor een GGUF model (abliterated is geen gek idee (ongecensureerd))
- Een 8B Q3 model is beter dan een 4B Q8 model van dezelfde grootte
- Houd ruimte vrij in je VRAM voor je context size (in mijn geval een model van max 5GB)
- Zet je context size niet té groot (in mijn geval zo'n 12K)
- Je hoeft niet altijd van het denken van de "reasoning" modellen gebruik te maken
- Kies een model dat past bij je doeleinde, probeer wat uit en zoek wat rond
- Vooralsnog is een automatisch, blijvend geheugen niet zo gemakkelijk op te zetten als de llm zelf. Het analyseren van de tekst wordt óók door een llm gedaan, meestal een externe partij. Als je het om de privacy doet of offline wil werken, is er nog werk aan de winkel
- Blijf op de hoogte van ontwikkelingen, het gaat snel
- Gebruik google gemini voor al je vragen. ChatGPT kan ook, je kan ze met elkaar wegen maar ik vind gemini hierin beter.
- verwacht niet dat je een goede output krijgt op deze hardware. Je kan een groter model als Qwen3 30B:A3B laden en langzaam een reactie krijgen van aardige kwaliteit, maar het is (nog) niet mogelijk om een antwoord te krijgen op een inhoudelijke vraag die niet ergens íets achterwege laat. Vandaar dat ik een model dat snel en "gespreksgericht" is, fijner vindt. Hiervoor heb ik hermes3 gekozen.
[ Voor 18% gewijzigd door Thonz op 31-05-2025 15:32 ]
Nu weet ik dat het antwoord ongetwijfeld nee is
Op termijn wil ik ervaring opdoen om dit op het werk te gaan integreren ivp betaalde copilot te gebruiken.
Ik heb het volgende gevonden (zie mijn systeem hierboven):
-Content extraction engine: Tika
-Chunk size: 512 / 100 overlap
-Text splitter: token
-Embedding: scentence transformers met BAAI/bge-m3
-Hybrid search aan
-Reranking engine: default met BAAI/bge-reranker-v2-m3
-Top K 10, reranker 3, relevance threshold 0.15
Redelijk standaard prompt:
### Task:
Respond to the user query using the provided context, incorporating inline citations in the format [id] **only when the <source> tag includes an explicit id attribute** (e.g., <source id="1">).
### Guidelines:
- If you don't know the answer, clearly state that.
- If uncertain, ask the user for clarification.
- Respond in the same language as the user's query.
- If the context is unreadable or of poor quality, inform the user and provide the best possible answer.
- If the answer isn't present in the context but you possess the knowledge, explain this to the user and provide the answer using your own understanding and mark them with an asterisk.
- **Only include inline citations using [id] (e.g., [1], [2]) when the <source> tag includes an id attribute.**
- Do not cite if the <source> tag does not contain an id attribute.
- Do not use XML tags in your response.
De data die ik in de RAG voedt zijn boeken over onderwerpen waar ik meer over wil weten. Deze boeken zijn gesplitst in hoofdstukken en bestaan uit .txt bestanden. Waarschijnlijk zijn ze al lang opgenomen in het model (ik vermoed dat de gehele libgen database opgenomen is in de trainingsset) maar doordat ik een klein model gebruik kan ik hiermee de kennis die verloren is door het optimaliseren, "terugwinnen". Zo kan ik gerichte vragen stellen over stof die in een online cursus wordt behandeld. De prompt voor het model ben ik nog aan het verbeteren, maar ik merk ook dat dat van groot belang is.
Het model dat ik hiervoor gebruik is hf.co/unsloth/gemma-3-4b-it-qat-GGUF:UD-Q4_K_XL omdat het snel reageert, prima antwoorden geeft en ruimte overlaat voor de context (16K) en toch in VRAM past. Daarnaast zorg ik dat alle layers op de GPU worden geladen door de num_gpu (Ollama) op 255 te zetten.
Response tokens zijn 62/s
Prompt tokens zijn 2150/s
[ Voor 7% gewijzigd door Thonz op 06-06-2025 13:55 ]
De 5905X is een cpu, maar dat lijkt me ergens ook nuttig, of is het puur GPU die telt voor dit soort AI modellen? De RTX 4090 die ik heb is de founders edition met 24GB VRAM (maar dat heeft de 4090 volgens mij altijd?)Thonz schreef op donderdag 5 juni 2025 @ 22:22:
hoeveel VRAM heb je? Enneh, die 5950x is toch een CPU?
Voor zover ik nu google en zoek zijn mijn beste kansen bij wan ai 2.1, klopt dat? En kun je met die tools ook hogere resoluties genereren? Zo te zien is zelfs veo 3 in de cloud max 720p blijkt als ik er onderzoek naar doe?
Een mooie vergelijking:
Ik heb met mijn 5800X en 128GB geheugen eens de vraag gesteld welke luchtmachtbases allemaal actief zouden zijn bij een Fulda gap scenario. Het model had 14b parameters.
De CPU deed er ruim 6 uur over. Later nog eens gevraagd met een GPU erbij (7800XT) dat duurde 3 minuten.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Als het model de geheugenruimte van de GPU overstijgt gaat de CPU dat voor een deel opvangen. Bepaalde zaken worden ook op de CPU afgehandeld, maar ik weet niet precies welke. Voor mij is een 5800X genoeg, zolang er maar een GPU met veel VRAM aan hangt.DeNachtwacht schreef op vrijdag 6 juni 2025 @ 18:07:
Maar ik lees dan wel weer dat je met grote taalmodellen er weer wel iets aan hebt als je naast de GPU een cpu met veel cores hebt, hoe zit dat dan?
meer info
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Om op je vraag terug te komen, het beste is om het gehele model in GPU te houden en de quant (mate van optimalisatie) te kiezen die daarbij past.DeNachtwacht schreef op donderdag 5 juni 2025 @ 21:16:
AMD 5950x gpu
Ik heb nog geen ervaring met het genereren van video, maar ik zou eens hier kijken voor de meest gebruikte modellen die in je VRAM passen.
Wat @ocf81 zegt klopt inderdaad. Zodra je zaken gaat versprieden over GPU en CPU moet er gegevensoverdracht plaatsvinden tussen die twee, met de geheugebus als bottleneck.
Ik zou vooral nog alles wat ik en anderen je vertellen zelf natrekken. Gemini en Claude vind ik hiervoor erg nuttig.
Zonder je prompt te weten is er natuurlijk geen vergelijking te maken, maar dit is wat gemma-3-4b-it-qat-GGUF:UD-Q4_K_XL mij vertelde op de prompt: "In a fulda gap scenario, which airforce bases in the Netherlands will be active?"ocf81 schreef op vrijdag 6 juni 2025 @ 18:01:
Ik heb met mijn 5800X en 128GB geheugen eens de vraag gesteld welke luchtmachtbases allemaal actief zouden zijn bij een Fulda gap scenario. Het model had 14b parameters.
De CPU deed er ruim 6 uur over. Later nog eens gevraagd met een GPU erbij (7800XT) dat duurde 3 minuten.
Okay, let's break down which Dutch air force bases would likely be active in a Fulda Gap scenario. This is a complex hypothetical, and the exact situation would depend on the scale and nature of the conflict, but here's a breakdown based on current Dutch military doctrine and strategic considerations:
Likely Active Bases & Their Roles:
Leeuwarden Air Base (KbvL): This is the key base. Leeuwarden is the primary location for the F-35 Lightning II fighter jets currently deployed in the Netherlands. It would be absolutely central to any rapid reinforcement of the front lines. Its role would be:
Rapid Reinforcement: F-35s would be rapidly deployed to the front to provide air superiority, strike capabilities, and reconnaissance.
Air Defense: Supporting ground forces against Russian air attacks.
Command & Control: Serving as a key node for coordinating air operations.
De Kooy Air Base (KbvK): De Kooy is a significant base with a diverse range of capabilities. It would likely be involved in:
Support Aircraft: Providing support to Leeuwarden, including tankers, electronic warfare aircraft, and potentially transport aircraft.
Ground Attack Support: Potentially deploying F-16s (though less likely than F-35s in a rapid reinforcement scenario) for ground attack missions.
Logistics & Maintenance: Supporting the movement and maintenance of aircraft.
Volkel Air Base (KbvV): Volkel is a crucial base for long-range strike capabilities and air defense. It would likely be involved in:
Long-Range Strikes: Supporting attacks against Russian forces further behind the front lines.
Air Defense: Contributing to the overall air defense network.
Intelligence, Surveillance, and Reconnaissance (ISR): Providing vital intelligence on enemy movements.
Gilze-Rijen Air Base (KbvG): Gilze-Rijen is a major maintenance and logistics hub. It would be vital for:
Aircraft Maintenance: Ensuring that aircraft are ready for deployment and operation.
Logistics: Managing the flow of supplies, fuel, and ammunition to the front lines.
Electronic Warfare: Supporting electronic warfare operations.
Less Likely, but Possible:
Eelde Air Base (KbvE): Eelde is primarily a helicopter base. Helicopters would be invaluable for reconnaissance, troop transport, and medical evacuation. Its role would be supporting the ground forces.
Important Considerations & Caveats:
Scale of the Fulda Gap Scenario: The number of aircraft deployed and the level of activity at each base would depend heavily on the size and intensity of the conflict.
NATO Coordination: The Netherlands is part of NATO. Any deployment would be coordinated with other NATO allies, particularly Germany and the United States.
Dutch Air Force Doctrine: The Netherlands has a relatively small air force. Their role would be to rapidly reinforce the front lines, not to engage in large-scale air campaigns.
Resources for Further Research:
Royal Netherlands Air Force Website: https://www.defensie.nl/en/news/royal-netherlands-air-force
Wikipedia - Royal Netherlands Air Force: Wikipedia: Royal Netherlands Air Force
Do you want me to delve deeper into a specific aspect of this, such as:
The types of missions the Dutch aircraft would likely undertake?
The logistical challenges of deploying aircraft through the Fulda Gap?
The role of Dutch air defense systems?
Van het moment dat ik op enter drukte tot geheel antwoord duurde het 14 seconden
overigens klopt de link van de Nederlandse luchtmacht niet: het moet https://english.defensie.nl/organisation/air-force zijn. Dit is wat ik bedoelde met de kwaliteit van de antwoorden in mijn eerste post in dit topic.
[ Voor 74% gewijzigd door Thonz op 06-06-2025 19:19 ]
Wij waren al van plan om een thuisserver te bouwen en bekijken nu ook de mogelijkheid om lokaal llm's te draaien.
In eerste instantie dacht ik om voor een Intel 1700 processor te gaan (bv 13900/14900) die tweedehands aangeboden worden. Dit omdat deze energiezuinige e cores hebben icm performance cores . Het zou zo te tunen moeten zijn dat dit redelijk zuinig uitpakt.
Ik twijfel nu wel welk moederbord het meest geschikt is voor in de toekomst 2 3090 gpu's samen te kunnen draaien. In eerste instantie is een 3090 de bedoeling, maar ik wil het systeem zo schaalbaar maken zodat een tweede erbij geprikt kan worden voor de llm's.
Nu heb ik wat ingelezen en ik zie dat een mobo wat die twee keer x pic lanes voor de gpu's ondersteund lastig te vinden zijn voor het 1700 socket.
Voor het AMD AM5 platform zijn deze wel beter beschikbaar. Aan de andere kant is het performance issue van een tweede gpu die niet op 8 lanes draait ook niet heel groot. Welk moederbord zou dan het meest geschikt zijn die voordelig is?
Qua geheugen is het advies geloof ik hoe meer hoe beter. Ik denk aan eerst twee modules van 32gb te kopen en later dan nog 64gb erbij te plaatsen als dat nodig is.
Nog wat handige info:
https://aightbits.com/202...ons-for-multi-gpu-builds/
https://old.reddit.com/r/...speedgenlanes_when_doing/
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Dank je wel voor de informatie. Ik zag dat een uitvoering: ASUS ProArt Z790-CREATOR WIFI wel twee keer pci5 x16 ondersteund op het 1700 socket.ocf81 schreef op zondag 8 juni 2025 @ 15:02:
Een beetje geheugen is wel handig, maar je wil vooral dingen op de GPU draaien. De verhalen verschillen een beetje wat nu de ondergrens is qua verbinding met de kaart. Sommigen zeggen dat 3.0 x4 wel oké is. Ik hanteer zelf PCI-e 4.0 x8 per kaart, mede omdat het inladen van grote modellen toch best wat tijd kost.
Nog wat handige info:
https://aightbits.com/202...ons-for-multi-gpu-builds/
https://old.reddit.com/r/...speedgenlanes_when_doing/
Dan zouden twee 3090's kunnen draaien op x8 lanes.
Volgens de tabel uit de eerste link zou dat een doorvoer snelheid hebben van 32GB/s, dat lijkt mij wel voldoende omdat een 3090 zelf pcie gen 4 is.
Klopt dat of is dit dan overkill en kan ik beter naar een andere goedkopere versie zoeken?
Zoals al wordt beschreven in de aangehaalde links in mijn eerdere bericht is het voornamelijk fijn om zo modellen sneller in te laden, en ik merk dat dit toch wel een paar seconden kan duren met een wat oudere kaart en minder bandbreedte.
Als je ook aan training gaat doen, maar dat lijkt nu niet het geval te zijn, wordt het een andere zaak. Dan is een Threadripper of Epyc wellicht de betere keus omdat je dan de volle bandbreedte ter beschikking hebt.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Zelf ben ik commercieel bezig met het opzetten en exploiteren van lokale AI machines voor bedrijven. Dit is een alternatief voor cloud LLMs diensten zoals ChatGPT en Gemini. Niet meer afhankelijk zijn van de cloud / USA/China, ongelimiteerde hoeveelheid accounts, mogelijkheid tot het ontsluiten van bedrijfs knowledge bases en ook nog eens te koppelen met bedrijfsprocesautomatisering tools.
Het is een bijzondere wereld met extreme snelle ontwikkelingen in modellen, hardware, en 'awareness' onder de klanten. Ik zal t.z.t. wel eens iets delen.
Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.
Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.
Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.
but I don't like you in that way
the best things in life are illegal
born to do porn!
Hoelangt duurt het ongeveer voordat je een antwoord hebt zonder GPU maar met een bak aan RAM?Reacher schreef op dinsdag 10 juni 2025 @ 15:47:
Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.
Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.
Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.
Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.
Ik ben zelf aan het experimenteren met AnythingLLM(Ollama/Mistral) zonder GPU en met ongeveer 20GB RAM maar ik vind het antwoord best lang duren. Ik heb nog 64GB liggen dus als dat helpt is dat best interessant.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
but I don't like you in that way
the best things in life are illegal
born to do porn!
Ik wil wel een use case voor je meten, als je met een use case komt dan benchen we datdaily.data.inj schreef op dinsdag 10 juni 2025 @ 17:23:
[...]
Hoelangt duurt het ongeveer voordat je een antwoord hebt zonder GPU maar met een bak aan RAM?
Ik ben zelf aan het experimenteren met AnythingLLM(Ollama/Mistral) zonder GPU en met ongeveer 20GB RAM maar ik vind het antwoord best lang duren. Ik heb nog 64GB liggen dus als dat helpt is dat best interessant.
but I don't like you in that way
the best things in life are illegal
born to do porn!
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Wat voor NUC heb je? Ik heb recent een server gebouwd met een i5-13500 en 128GB RAM, maar bijvoorbeeld llama 3.1 8B heeft een hele lage output. Een prompt als "Can you give me a 3 word rime?" duurt 1,5 minuut om een antwoord te produceren.Reacher schreef op dinsdag 10 juni 2025 @ 15:47:
Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.
Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.
Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.
Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.
Met kleinere modellen lijkt het niet veel beter te zijn, dus ik ben op zoek of ik iets mis om te tweaken. Ik gebruik een andere UI (AnythingLLM) om met Ollama-server te interacteren.
Llama.cpp gebruiken met GGUF (Generalized GGML Unified Format) models.BounceCloud schreef op woensdag 11 juni 2025 @ 17:17:
[...]
Wat voor NUC heb je? Ik heb recent een server gebouwd met een i5-13500 en 128GB RAM, maar bijvoorbeeld llama 3.1 8B heeft een hele lage output. Een prompt als "Can you give me a 3 word rime?" duurt 1,5 minuut om een antwoord te produceren.
Met kleinere modellen lijkt het niet veel beter te zijn, dus ik ben op zoek of ik iets mis om te tweaken. Ik gebruik een andere UI (AnythingLLM) om met Ollama-server te interacteren.
but I don't like you in that way
the best things in life are illegal
born to do porn!
[ Voor 7% gewijzigd door Thonz op 12-06-2025 18:17 ]
Interessant! Zelf kom ik nooit op het idee om veilingen in de gaten te houden voor interessante opties.Thonz schreef op donderdag 12 juni 2025 @ 16:53:
Ik heb mijn pc destijds gekocht op troostwijk auctions.Er staan nu een aantal te koop die ik zou kopen als ik zelf aan de slag zou willen met LLMs. Deze lijkt me bijvoorbeeld wel aardig daarvoor. Al moet je wel even kijken of er nog anderen bieden. Zo te zien koopt @Detmer veel van de aangeboden PCs op verkoopt ze door op zijn eigen site dus mocht je achter het net vissen, heb je nog kans
Koop je dan in dat geval geen oude meuk die teveel stroom vreet en dat nieuwe componenten sneller en zuiniger zijn?
Nieuwere architectuur is vaak wel zuiniger dus als het je gaat om kWh/token dan zou ik hier niet voor gaan. Je kunt een 70B model technisch draaien op een oude pc met 128 GB DDR4 geheugen, maar het is te traag voor praktisch gebruik. Verwacht zo'n 1 token per seconde._Uploader_ schreef op donderdag 12 juni 2025 @ 21:33:
[...]
Interessant! Zelf kom ik nooit op het idee om veilingen in de gaten te houden voor interessante opties.
Koop je dan in dat geval geen oude meuk die teveel stroom vreet en dat nieuwe componenten sneller en zuiniger zijn?
De onderliggende aanname is inderdaad wel dat de PC hobbymatig/uit interesse wordt aangeschaft. Met die hardware zijn er natuurlijk geen vergelijkbare prestaties te verkrijgen als met een situatie waarin eenzelfde grootte model geheel in VRAM wordt ingeladen.Julianvvz schreef op vrijdag 13 juni 2025 @ 10:13:
[...]
Nieuwere architectuur is vaak wel zuiniger dus als het je gaat om kWh/token dan zou ik hier niet voor gaan. Je kunt een 70B model technisch draaien op een oude pc met 128 GB DDR4 geheugen, maar het is te traag voor praktisch gebruik. Verwacht zo'n 1 token per seconde.
Het is wel een mogelijkheid natuurlijk om lokaal met grotere modellen te werken zonder dat daar meerdere duizenden euro's aan GPUs gekocht hoeven worden. (los van nieuwere macs/ai-specifieke NUCs)
Hoewel voor die prijs, api toegang via openrouter een soortgelijk pad mogelijk maakt met rekenkracht die niet/nauwelijks lokaal te realiseren is.
Je opmerking klopt goed en is zeker het overwegen waard
Interessant! Wat mij opviel: de versie die hij heeft getest (Ryzen AI Max+ 395, 128GB RAM en 2TB HDD) is de €2000 die ze ervoor vragen niet waard.ocf81 schreef op dinsdag 10 juni 2025 @ 20:34:
Alex Ziskind heeft een GMKTec EVO-X2 weten te bemachtingen. Dat is een machine met een Strix Halo 395+ en 128 GB RAM. Er is nog geen ROCm voor, dus hij heeft het geprobeerd met Vulkan:
[YouTube: Nvidia, You’re Late. World’s First 128GB LLM Mini Is Here!]
Hopelijk is dit een goed bewijsmateriaal dat fabrikanten nodig te hebben om meer op deze systemen in te zetten!
[ Voor 55% gewijzigd door Thonz op 14-06-2025 13:23 ]
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Als hobby vind ik de kleinere LLM's leuk om te testen wat ze allemaal kunnen: maak een html website en kijken wat voor code ze bakken, tekst genereren etc. Voor het "echte werk" gebruik ik openrouter.ai.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Is het echt zo dat je 70b parameters moet willen? Is dat niet per usecase verschillend?ocf81 schreef op zondag 3 augustus 2025 @ 12:50:
Als je serieus iets wil moet je inderdaad wel een sloot aan VRAM hebben. De AI machine die ik heb is wat dat betreft wel een vooruitgang voor mij, maar ik kan mij goed voorstellen dat niet iedereen daar €3000 in wil stoppen om de schijnbaar kritieke grens van ca 70b parameters welke nodig is om zinnige resultaten te krijgen te overschrijden.
Het is wel echt iets waarvan ik maar moeilijk enige goede richtlijnen over kan vinden. Of in ieder geval "best practices" o.i.d.
Met zo'n administrator heb je geen users meer nodig...
Voor mijn gebruiksscenario's lijkt dit wel een kritieke grens te zijn. Er zijn een aantal duidelijke stappen in modellen en hoe ze presteren. 8b, 14b, 30b, 70b, 100b en dan de volle modellen die tot 600b gaan, elke stap heeft varianten van een paar miljard meer of minder, maar grosso modo kan je modellen in die strata indelen. 8b is gewoon speelgoed dat bijna niks kan. 14b is leuk voor vertaalwerk, maar doet kennisvragen niet goed. Code generatie is beperkt tot simpel werk. Bij 30b gaat het al een stuk beter, maar helaas nog niet zo goed dat je er echt een goed stuk code uit kan krijgen of een gedetailleerdere vraag aan kan stellen. Bij 70b lijkt dit probleem zo veel kleiner is dat het wel een bruikbaar verhaal begint te worden. Maar naar verluidt komen er binnenkort modellen die meer met minder kunnen.CSB schreef op maandag 4 augustus 2025 @ 11:50:
[...]
Is het echt zo dat je 70b parameters moet willen? Is dat niet per usecase verschillend?
Het is wel echt iets waarvan ik maar moeilijk enige goede richtlijnen over kan vinden. Of in ieder geval "best practices" o.i.d.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Klopt, je ziet nu al dat Phi van Microsoft met iedere iteratie steeds betere resultaten geeft met dezelfde parameters. Ik hoop en vermoed hetzelfde, want dat zou betekenen dat we met z'n allen ook wat minder hoeven te vragen van de hardware.ocf81 schreef op maandag 4 augustus 2025 @ 12:05:
[...]
Maar naar verluidt komen er binnenkort modellen die meer met minder kunnen.
Have you tried turning it off and on again?
https://openai.com/open-models/
Ik ben wel benieuwd of er nog een Q4 versie van uitkomt van het 120b model.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Vertalen gaat bij kleinere modellen in de regel wel goed, maar wat wel merkbaar is, is dat nuances niet altijd even goed worden omgezet. Maar de kleinere modellen hebben gewoon niet genoeg parameters om kennis goed over te brengen.Yarisken schreef op woensdag 6 augustus 2025 @ 12:03:
Ik gebruik dat deepseek model , kleinste, om Engelse texten na te kijken en ben toch heel tevreden van de output. Mijn cpu's gaan wel naar 100 percent en mijn mini pc is aan het blazen maar it gets the job done.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Ja ollama en webui.
Hier de modellen die ik heb gedownload.
https://ibb.co/r9Cm9jS
Ik gebruik een optiplex mff 3060 i5. Beste resultaten heb ik met deepseek voor wat ik het nodig heb.
Nu wat met n8n aan het spelen.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.
[ Voor 16% gewijzigd door ocf81 op 21-11-2025 18:49 ]
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
[ Voor 92% gewijzigd door Jazzy op 24-11-2025 17:19 ]
Ik zou daar best wel eens naar willen kijken voor jullie. Ben zelf ook benieuwd hoe de performance is.tomhelmer schreef op vrijdag 21 november 2025 @ 14:45:
Heeft hier iemand raad?
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.
Ik denk niet dat er LLM's bestaan die specifiek getraind zijn op theatervoorstellingen en de scripts daarvoor.tomhelmer schreef op vrijdag 21 november 2025 @ 14:45:
Heeft hier iemand raad?
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.
Zeker voor een theatervoorstelling denk ik dat een mens die vertaling veel beter kan omdat die persoon zich in kan leven in het script zelf. AI kan dat niet en dat zal waarschijnlijk een vrij technische vertaling opleveren.
Only two things are infinite, the universe and human stupidity, and I'm not sure about the former
Heb je hier al een oplossing voor gevonden?tomhelmer schreef op vrijdag 21 november 2025 @ 14:45:
Heeft hier iemand raad?
Voor een theatervoorstelling willen we een toneelstuk in het Engels laten vertalen. Het script dus. We denken daar voor een eerste versie een LLM voor te gebruiken. Maar de auteur wil het niet via een server van Open Ai, Google etcetera doen, uit principiële redenen. Nu ben ik op zoek naar mensen die op een eigen server een model hebben draaien die dat aan kan. Het gaat om een tekst van 9000 woorden.
Mocht je geïnteresseerd zijn, dan kan ik wel een aantal passages door een aantal verschillende modellen halen. Zo krijg je een gevoel voor de mogelijkheden.
© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!
Mijn idee is de gehele basisset de komende tijd via Gemini online te krijgen en vervolgens via Ollama te proberen hoe ver ik kom met Ministral, maar volgens mij is het ook echt even spannend hoe en of dit werkend te krijgen is.
Voor zolang het nog via Gemini werkt dan…DeNachtwacht schreef op maandag 23 februari 2026 @ 18:04:
@ocf81 Ik heb het inmiddels werkend en draaiend met een Google Gemini Flash 2.5 model (dus via API). Inmiddels is de mailserver via telegram online. Voor zover ik het overal online lees is het echt nodig eerst het trainen (dus aanzetten van google drive, mail, websearch tools et cetera) met online modellen te doen omdat lokale modellen daar te klein voor zijn. Sowieso heb je er een behoorlijk forse GPU voor nodig (als het al lukt).
Mijn idee is de gehele basisset de komende tijd via Gemini online te krijgen en vervolgens via Ollama te proberen hoe ver ik kom met Ministral, maar volgens mij is het ook echt even spannend hoe en of dit werkend te krijgen is.
nieuws: Na Anthropic lijkt ook Google gebruik OpenClaw bij AI-abonnementen te...
Have you tried turning it off and on again?
Ik heb hem overigens ook al met KIMI 2.5 via build.nividia.com aan de praat gekregen maar die is wel een stuk trager (logisch, dat is geen flash model). Dus dat is ook nog een fallback (hopen dat die blijft werken natuurlijk).
[ Voor 51% gewijzigd door DeNachtwacht op 23-02-2026 23:15 ]
Met Telegram:
- Funda: Nieuw woningalert op basis van criteria
- Leer me elke dag een nieuw Linux command met voorbeelden
- Tweakers Pricewatch: Productmonitoring
Het werkt best goed maar er valt nog veel te leren. Ik wil hierna testen met Gmail + Google Calendar via een eigen Google account voor Openclaw.
Met zo'n administrator heb je geen users meer nodig...
Ik dacht even dat het weer één van de vele clickbait video's was, en dat is het natuurlijk wel een beetje want het zijn vooralsnog theoretische verbeteringen die alleen op een H100 (volgens google) getest zijn met forse snelheids/compressiewinst. Maar het ziet er inderdaad wel indrukwekkend uit, als dat echt enigszins klopt kun je ineens met een 16GB vram kaart behoorlijk serieuze modellen draaien en komt er heel veel moois beschikbaar voor lokale AI
[ Voor 12% gewijzigd door DeNachtwacht op 27-03-2026 15:22 ]