Ervaringen met zelf gehoste AI assistenten

Pagina: 1
Acties:

Acties:
  • +2 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Mede-auteur:
  • Thonz
  • Registratie: Oktober 2008
  • Niet online

Thonz

inleiding

De laatste paar jaar heeft AI een definitieve indruk achtergelaten als het om taken gaat waar veel informatie moet worden verwerkt. Enquêtes laten zien dat AI veelvuldig gebruikt wordt bij taken als het het schrijven van code. Veel van deze diensten zijn echter gebaseerd op de cloud, en dat vindt niet iedereen even prettig. Daarom zijn er ook AI runners die op je eigen hardware kunnen draaien. Voorbeelden hiervan zijn o.a.: Ollama vLLM en LM Studio, hoewel het laatste meer een voorbeeld is van een desktopapplicatie, terwijl de eerste twee meer voorbeelden zijn van dingen die je ook als server kan gebruiken.

Modellen

Natuurlijk zijn er meerdere soorten modellen. De meeste vrij beschikbare modellen. Bekende repo's voor modellen zijn o.a.:Er zijn een aantal verschillende soorten toepassingen voor een model, en niet alle modellen kunnen alle soorten taken even goed uitvoeren.
Vision modellen zijn bijvoorbeeld goed in het verwerken van plaatjes. Coding modellen zijn relatief sterk in het opstellen en/of verwerken van code. Multi-expert modellen zijn een combinatie van modellen met elk een specifieke focus. En een instruct model is heel goed in het opvolgen van aanwijzingen. (dit is in de meeste gevallen overigens meer een kwestie van parameters dan van expliciete training)
Chat modellen zijn direct te gebruiken, maar soms wil je de assistentie van een ander model.
Embedding modellen zijn bijvoorbeeld specifiek gemaakt om media te formatteren voor LLM-gebruik.
Een apply model maakt het mogelijk om bijvoorbeeld een stuk tekst in te voegen in een bestaande tekst zonder alles over te schrijven.

Front-ends

Om een LLM op een beetje gebruiksvriendelijke manier te ontsluiten kan je een front-end gebruiken. Een paar bekende zijn:
Open WebUI, een Docker container die een web-based front-end serveert met een chatinterface. Deze kan zowel met externe als met locale LLM servers babbelen.
Page Assist, een plugin die je kan instellen om met een eigen Ollama instantie te verbinden.
AnythingLLM, een web-based front-end.
Voor Stable diffusion, een plaatjesgenerator, kan je o.a. stable-diffusion-webui van AUTOMATIC1111 gebruiken

Naast chatten met een LLM zijn er ook toepassingen die gebruik kunnen maken van LLM's over het netwerk. Een vanb de meest bekende opties is het ondersteuenen van programmeerwerkzaamheden d.m.v. LLM's. Voor je IDE zijn er ook plug-ins:

Nuttige informatie:

Overwegingen bij het kiezen van hardwareopzet met oudere hardware
Overwegingen bij het kiezen van hardwareopzet met meerdere GPU's
Welke modelrunner?
ollama GitHub

[ Voor 98% gewijzigd door ocf81 op 08-06-2025 15:42 . Reden: alle AI assistenten i.p.v. alleen code assisitenten ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +1 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 17:30
ocf81 schreef op woensdag 5 maart 2025 @ 11:24:
De laatste paar jaar heeft AI een definitieve indruk achtergelaten op het programmeursvak. Enquêtes laten zien dat AI veelvuldig gebruikt wordt bij het schrijven van code. Veel van deze diensten zijn echter gebaseerd op de cloud, en dat vindt niet iedereen even prettig. Daarom zikjn er ook AI code helpers die op je eigen hardware kunnen draaien. Voorbeelden hiervan zijn o.a.: Ollama i.c.m. Continue, FauxPilot, FireCoder Refact en Tabby.
Ik ben benieuwd of er Tweakers zijn die ervaring hebben met dit soort code assistenten en wat jullie ervaringen zijn.
Hoe bevalt de kwaliteit van de adviezen. Welke hardware gebruik je ervoor? H is de integratie met je IDE?
Tot nu toe is de ervaring wel prima. Zelf gebruik ik Ollama (lokaal) en Open WebUI (Docker) om een ChatGPT-achtige ervaring op mijn eigen machine te draaien. Dat gaat goed, al is het wel iets trager dan de online diensten. Geeft niet, mijn input en output blijft dan in ieder geval op mijn eigen systeem. Voor generatieve AI pak ik phi4, ondersteunt tegenwoordig ook Nederlands.

Vorig jaar heb ik ook in Visual Studio Code aangerommeld met extensies (Continue) die je aan Ollama kunt koppelen, maar ik merk dan toch dat de response net iets te traag is voor functies als auto-complete. Het wachten totdat het model met een aanvulling komt haalt de snelheid uit de workflow. Je kunt Continue ook koppelen aan publieke AI-modellen, maar dat gaat dan voorbij aan het initiële doel (privacy). Nog niet 100% tevreden over dus, en laat het dan ook links liggen (voor nu). :)

Have you tried turning it off and on again?


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
@Gr4mpyC3t Welke GPU heb jij gebruikt om je model te hosten?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 17:30
ocf81 schreef op maandag 10 maart 2025 @ 16:30:
@Gr4mpyC3t Welke GPU heb jij gebruikt om je model te hosten?
Een MacBook Pro M4 Pro met 16 GPU-cores en 48 GB RAM. Het geheugen is gekoppeld met de GPU en de bandbreedte is vrij hoog.

Was je van plan met een losse kaart aan de slag te gaan?

Have you tried turning it off and on again?


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Gr4mpyC3t schreef op maandag 10 maart 2025 @ 16:36:
[...]


Een MacBook Pro M4 Pro met 16 GPU-cores en 48 GB RAM. Het geheugen is gekoppeld met de GPU en de bandbreedte is vrij hoog.

Was je van plan met een losse kaart aan de slag te gaan?
Ja, ik was van plan om een VM te maken in Proxmox en deze dan te voorzien van een GPU.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 01:47
Een tijdje terug gespeeld met ollama icm continue en vscode. 8GB videokaart, dus gespeeld met o.a. qwen2.5-coder:7b. Een vraag om een simpele python/tkinter applicatie te maken, zorgde al voor een berg ongebruikte functies, en calls naar niet bestaande functies etc. Kennis over veel bibliotheken ontbreekt en de autocomplete variant voelde idd laggy en maakte ook veelvuldig gebruik van niet bestaande members.

Reproduceren is nu moeilijk, maar als ik hem iets vergelijkbaars probeer te laten maken. Ging toen om een refactor naar het observer pattern, als ik hem nu vanuit t niets een voorbeeld laat maken, krijg ik een stuk code wat wel draait, maar iig niet doet wat qwen claimt dat het doet:
To ensure that the observers are triggered only when the `name` or `address` attributes actually change, we can use property decorators with setters. These setters will check if the new value is different from the current value and call the `notify` method if they differ.

Here's the updated implementation:

Python:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
from dataclasses import dataclass

# Observer Interface
class Observer:
    def update(self, person):
        pass

# Subject Class
@dataclass
class Person:
    _name: str = None
    _address: str = None
    observers: list[Observer] = None

    def __post_init__(self):
        self.observers = []

    def attach(self, observer: Observer):
        if observer not in self.observers:
            self.observers.append(observer)

    def detach(self, observer: Observer):
        try:
            self.observers.remove(observer)
        except ValueError:
            pass

    def notify(self):
        for observer in self.observers:
            observer.update(self)

    @property
    def name(self):
        return self._name

    @name.setter
    def name(self, value):
        if self._name != value:
            self._name = value
            self.notify()

    @property
    def address(self):
        return self._address

    @address.setter
    def address(self, value):
        if self._address != value:
            self._address = value
            self.notify()


# Concrete Observers
class NameObserver(Observer):
    def update(self, person):
        print(f"Name changed to: {person.name}")

class AddressObserver(Observer):
    def update(self, person):
        print(f"Address changed to: {person.address}")

# Example usage
person = Person()
name_observer = NameObserver()
address_observer = AddressObserver()

person.attach(name_observer)
person.attach(address_observer)

person.name = "John Doe"
person.address = "123 Elm Street"


In this example:
- The `Person` class has private attributes `_name` and `_address`.
- Property decorators (`@property`, `@name.setter`, `@address.setter`) are used to define getters and setters for the public properties `name` and `address`.
- In the setters, the new value is compared with the current value. If they differ, the attribute is updated, and the `notify` method is called.
- The `Observer` interface defines an `update` method that concrete observers must implement.
- `NameObserver` and `AddressObserver` are concrete observers that print a message when their respective attribute is changed.

This ensures that the observers are triggered only when the `name` or `address` attributes actually change.
En dat laatste item gaat het dus mis: `NameObserver` and `AddressObserver` are concrete observers that print a message when their respective attribute is changed. Klopt dus niet. Want voor elke update triggerren beide observers...

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Kan je daar nog wat aan doen door de context window aan te passen o.i.d.?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 17:30
ocf81 schreef op maandag 10 maart 2025 @ 17:48:
Kan je daar nog wat aan doen door de context window aan te passen o.i.d.?
Ja ongetwijfeld, maar daar wordt de code die er uit komt niet beter van denk ik.

Have you tried turning it off and on again?


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 01:47
Conclusies die ik zelf eruit trok zijn vooral:
  • 8gb is te weinig
  • zelfs als de code wel draait/compiled etc, dan nog kan het compleet iets anders doen dan dat zelfs de AI zelf claimt dat het doet.

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ja, ik heb gisteren even gezocht naar wat er op een desktopkaart past, en ik kwam de volgende tabel tegen:
ModelParametersSize in GBDownload
Moondream 21.4B0,829ollama run moondream
Llama 3.21B1,3ollama run llama3.2:1b
Gemma 22B1,6ollama run gemma2:2b
Llama 3.23B2ollama run llama3.2
Phi 4 Mini3.8B2,5ollama run phi4-mini
Code Llama7B3,8ollama run codellama
Llama 2 Uncensored7B3,8ollama run llama2-uncensored
Mistral7B4,1ollama run mistral
Neural Chat7B4,1ollama run neural-chat
Starling7B4,1ollama run starling-lm
LLaVA7B4,5ollama run llava
DeepSeek-R17B4,7ollama run deepseek-r1
Llama 3.18B4,7ollama run llama3.1
Granite-3.28B4,9ollama run granite3.2
Gemma 29B5,5ollama run gemma2
Llama 3.2 Vision11B7,9ollama run llama3.2-vision
Phi 414B9,1ollama run phi4
Gemma 227B16ollama run gemma2:27b
QwQ32B20ollama run qwq
Llama 3.370B43ollama run llama3.3
Llama 3.2 Vision90B55ollama run llama3.2-vision:90b
Llama 3.1405B231ollama run llama3.1:405b
DeepSeek-R1671B404ollama run deepseek-r1:671b


Zoals je ziet passen de meeste modellen wel in 16GB, maar ik weet niet of je dan ook nog andere zaken daar in kwijt moet.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 17:30
ocf81 schreef op dinsdag 11 maart 2025 @ 09:19:
Ja, ik heb gisteren even gezocht naar wat er op een desktopkaart past, en ik kwam de volgende tabel tegen:
ModelParametersSize in GBDownload
Moondream 21.4B0,829ollama run moondream
Llama 3.21B1,3ollama run llama3.2:1b
Gemma 22B1,6ollama run gemma2:2b
Llama 3.23B2ollama run llama3.2
Phi 4 Mini3.8B2,5ollama run phi4-mini
Code Llama7B3,8ollama run codellama
Llama 2 Uncensored7B3,8ollama run llama2-uncensored
Mistral7B4,1ollama run mistral
Neural Chat7B4,1ollama run neural-chat
Starling7B4,1ollama run starling-lm
LLaVA7B4,5ollama run llava
DeepSeek-R17B4,7ollama run deepseek-r1
Llama 3.18B4,7ollama run llama3.1
Granite-3.28B4,9ollama run granite3.2
Gemma 29B5,5ollama run gemma2
Llama 3.2 Vision11B7,9ollama run llama3.2-vision
Phi 414B9,1ollama run phi4
Gemma 227B16ollama run gemma2:27b
QwQ32B20ollama run qwq
Llama 3.370B43ollama run llama3.3
Llama 3.2 Vision90B55ollama run llama3.2-vision:90b
Llama 3.1405B231ollama run llama3.1:405b
DeepSeek-R1671B404ollama run deepseek-r1:671b


Zoals je ziet passen de meeste modellen wel in 16GB, maar ik weet niet of je dan ook nog andere zaken daar in kwijt moet.
En dan nog is RAM natuurlijk niet het enige dat telt voor de berekeningen. Het aantal TOPS dat een NPU aankan speelt ook een rol.

Have you tried turning it off and on again?


Acties:
  • +1 Henk 'm!

  • pkuppens
  • Registratie: Juni 2007
  • Laatst online: 14:17
Gr4mpyC3t schreef op woensdag 5 maart 2025 @ 11:51:
[...]


Tot nu toe is de ervaring wel prima. Zelf gebruik ik Ollama (lokaal) en Open WebUI (Docker) om een ChatGPT-achtige ervaring op mijn eigen machine te draaien. Dat gaat goed, al is het wel iets trager dan de online diensten. Geeft niet, mijn input en output blijft dan in ieder geval op mijn eigen systeem. Voor generatieve AI pak ik phi4, ondersteunt tegenwoordig ook Nederlands.

Vorig jaar heb ik ook in Visual Studio Code aangerommeld met extensies (Continue) die je aan Ollama kunt koppelen, maar ik merk dan toch dat de response net iets te traag is voor functies als auto-complete. Het wachten totdat het model met een aanvulling komt haalt de snelheid uit de workflow. Je kunt Continue ook koppelen aan publieke AI-modellen, maar dat gaat dan voorbij aan het initiële doel (privacy). Nog niet 100% tevreden over dus, en laat het dan ook links liggen (voor nu). :)
Continue ook heel kort gebruikt, maar zit nu alleen maar in de weg van de standaard Code completions.
Heb me er mogelijk niet goed genoeg in verdiept en niet goed geconfigureerd.

Ik weet nog wel de eerste keer dat ik met bolt.new aan het spelen was, ik kon als niet frontender binnen de credits een web app maken die spraak opnam en uitschreef met taal herkenning.
Die hebben ook een publieke variant, bolt.diy, waar ik ook nog wel meer naar wil kijken voor frontend werk.

Ik ben zelf ook wel naar een zelf gehoste code assisten op zoek, maar misschien wel zelf iets maken buiten de IDE om. Ik werk ook aan mijn eigen architectuur/design/code superprompts van 10k+ waar niet alle modellen en code assistents mee om kunnen gaan.

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het woord superprompt was ik nog niet tegengekomen. Weer wat geleerd. Ik ben ondertussen beland bij stap 2: (2e-hands) hardware aankopen om het op een server werkend te krijgen. Mocht het niet bevallen dan gaat de hardware weer naar V&A en heb ik slechts wat leergeld betaald. Dat is wel te overzien, denk ik.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +1 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

Interessant topic. Ik ben zelf al een tijdje aan het rommelen met een oude game-pc die ik omgetoverd heb tot Ollama LLM servertje. Ik heb het volgende opgezet:
  • Ubuntu 24.04 LTS
  • Docker
  • Portainer
  • Watchtower
  • Ollama
  • OpenwebUI
  • AnythingLLM
Dit alles draait op een oude Core i7 met 24 GB DDR3, met een AMD Radeon RX6650XT met 8GB VRAM.

Leuk om mee te experimenten en vooral erg leerzaam om op te zetten. Ik probeer nu om een multi-agent setup te maken. Voornamelijk eerst voor het leerproces, maar als het uiteindelijk werkt wil ik wellicht wel gaan investeren in nieuwe(re) hardware om echt iets fatsoenlijks neer te zetten. (AMD is nou niet bepaald veel gebruikt in local LLM land)
Let wel, tot vorig jaar had ik amper kennis van al deze systemen en van sommige onderdelen weet ik nog steeds maar een fractie, maar het werkt en daar gaat het om. ;)

Ik gebruik bovenstaand niet perse voor coding, maar ik probeer juist een soort van Assistent te bouwen waar ik taken kan offloaden bij het onderzoeken van zaken. Daarnaast zou ik de LLM wel willen koppelen aan HAOS en eventueel als voice-assistant gebruiken om mijn Google Home's te vervangen.

Ik ga dit topic eens volgen om meer praktische informatie op te halen. :)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik ben inmiddels sinds vrijdag aan het stoeien om op een Proxmox VE bak met een Debian VM waar ik Ollama en Open WebUI in heb draaien. Sinds vandaag heb ik middels PCI-e passthrough een RX 7800 XT toegevoegd. Helaas is het nog niet gelukt om Ollama ook op de GPU aan de praat te krijgen. Toen ik Passthrough aan heb gezet heb ik de hele VM opnieuw opgebouwd. Ik zie in de VM met "lspci -v" de GPU in de lijst staan en Ollama gaf tijdens de installatie ook aan dat het AMD gpu zag. Echter draaien de modellen nog steeds voor 100% op de CPU. Iemand een hint waar dat aan kan liggen?

Ollama is geïnstalleerd met het bash script: "curl -fsSL https://ollama.com/install.sh | sh". Zou de docker versie het beter doen?

[edit] toch maar lokaal even Ollama geïnstalleerd, en dan draait ie in één keer op de GPU. Ik doe kennelijk niets niet helemaal goed, of de 7800XT is op de een of andere manier niet zo geschikt voor Ollama?`

[edit2] Toch maar Debian de deur uit gedaan voor de server en, net als op mijn Desktop, OpenSUSE Tumbleweed gebruikt. Het werkt nu als een tierelier *O*

[edit3]Er was toch nog een hobbeltje in de weg: Continue wilde niet babbelen met Ollama op de server. Nu eindelijk alles aan de praat gekregen! Ollama met een GPU op een server, en vervolgens verder in VScodium, vragen beantwoorden en antwoorden geven. Ik had een firewallregel op de server over het hoofd gezien, wat me behoorlijk wat frustratie opleverde. Ik had niet bedacht dat de tests die ik met curl deed eigenlijk naar localhost gingen. 😅 Om eerlijk te zijn, ik ben nog steeds een grote fan van Debian vanwege de eenvoud bij het hosten van servers. Maar het kan ook zijn dat ik er zo gewend ben geraakt dat ik me eigenlijk ongemakkelijk voel om naar iets anders over te stappen.

[ Voor 56% gewijzigd door ocf81 op 31-03-2025 16:18 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
@CSB Wat is AnythingLLM precies? Ik krijg niet zo'n goed idee van wat het nu precies doet als ik de site er op nasla.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +1 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

ocf81 schreef op maandag 31 maart 2025 @ 15:25:
@CSB Wat is AnythingLLM precies? Ik krijg niet zo'n goed idee van wat het nu precies doet als ik de site er op nasla.
Een frontend / Webinterface voor je LLM experience zoals je bij ChatGPT gewend bent. Daarnaast wordt er voortgeborduurd op "agent-achtige" zaken, zoals Webscraping en dergelijken. Ik vind het een fijnere tool dan OpenwebUI voor het gebruik van Ollama voor "basis uitzoekwerk" zeg maar. Ben me ook nog aan het orienteren op wat nou de juiste tooling moet zijn want het schiet allemaal als paddestoelen uit de grond de laatste tijd. Er is nog niet echt een goeie standaard...

Edit: goed om te lezen dat je je GPU aan de praat hebt. Ik neem aan dat deze Linux distro ondersteuning heeft voor Rocm? In mijn Ubuntu distro zat het een paar maanden terug nog niet, dus baalde al dat ik "de nieuwste" had geinstalleerd.

[ Voor 14% gewijzigd door CSB op 31-03-2025 17:16 ]

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CSB schreef op maandag 31 maart 2025 @ 17:15:
[...]

Een frontend / Webinterface voor je LLM experience zoals je bij ChatGPT gewend bent. Daarnaast wordt er voortgeborduurd op "agent-achtige" zaken, zoals Webscraping en dergelijken. Ik vind het een fijnere tool dan OpenwebUI voor het gebruik van Ollama voor "basis uitzoekwerk" zeg maar. Ben me ook nog aan het orienteren op wat nou de juiste tooling moet zijn want het schiet allemaal als paddestoelen uit de grond de laatste tijd. Er is nog niet echt een goeie standaard...
Voorlopig houd ik het even bij Open WebUI, want dat doet voor nu al genoeg. Ik zit nog in de fase van het spelenderwijs ontdekken, zeg maar :) Net mijn eerste stukjes code gegenereerd om te zien hoe dat in zijn werk gaat.
CSB schreef op maandag 31 maart 2025 @ 17:15:
Edit: goed om te lezen dat je je GPU aan de praat hebt. Ik neem aan dat deze Linux distro ondersteuning heeft voor Rocm? In mijn Ubuntu distro zat het een paar maanden terug nog niet, dus baalde al dat ik "de nieuwste" had geinstalleerd.
Ja, dat was, zoals je kan teruglezen in mijn edits, in eerste instantie nog wel even een probleem. Nadat ik PCI-e passthrough aan de praat kreeg had Ollama toch wat problemen met het gebruiken van de GPU. Toen maar OpenSUSE Tumbleweed erbij gepakt, want met een rollende release is de kans op verouderde software een stuk minder. En toen deed alles het opeens wel. Ollama pakt ROCm er zelf bij, dus daar hoef je eigenlijk verder niet mee te klooien. Maar ik denk dat de kernel van Debian 12 gewoon te oud was waardoor het toch niet werkte met die distro.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

Ik zit nu zelf op het niveau dat ik het boeltje nog wat "slimmer" wil maken. Als ik alles een beetje goed begrijp zou je d.m.v. agents bepaalde zaken kunnen "offloaden" naar een agent, zoals Websearch, scraping, Summarizing, RAG building, etc. Maar HOE je op één systeem het beste zoiets kunt opzetten kan ik zo snel niet terugvinden op het web. Ik dacht iets te lezen over meerdere Ollama instanties in Docker, maar dat lijkt me zeer inefficient. (resource-wise dan) Je zou dan per agent een aparte LLM moeten runnen. Ik hoop dat iemand meeleest die zoiets al heeft draaien en mij op de juiste weg kan helpen. (beetje thread-kapen wat ik nu doe...)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het slimmer maken door agenten in te richten is de volgende stap, zo lijkt het.
Ik kwam vandaag het volgende filmpje tegen in mijn feed, het lijkt me wel een aardige uitleg van wat dat zou kunnen inhouden:

Maar eigenlijk wordt de term agent dan gekaapt door het LLM volk. Het is eigenlijk een begrip dat veel breder kan worden gezien:

[ Voor 29% gewijzigd door ocf81 op 31-03-2025 22:35 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

Interessant. Ik vond gisteren ook weer wat: "Make ollama can run multiple models parallel" https://github.com/ollama/ollama/issues/9787

Hiermee zou je Ollama meerdere requests parellel aan elkaar moeten kunnen laten draaien op één systeem. Logischerwijs wordt het dan door het systeem gequeued en dus zal de dee query langer duren, maar je kunt wél meerdere taken tegelijk afvuren, waardoor het dus mogelijk zou moeten zijn om meerdere tasks parellel uit te voeren. Voor mijn usecase zou ik al blij zijn met tasks in sequence, zoals bijv. Search topic X, scrape, summarize, commit to memory (RAG) of zoiets.

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Dat is inderdaad best interessant. Ik ben dan wel benieuwd of je dan ook een soort load balancer kan maken om het werk over meerdere machines te verdelen, want anders zit je al heel snel aan die superdure GPU's met veel RAM te kijken. Ik vind de uitvoering: ASRock AMD Radeon RX 7900 XTX Creator 24GB steeds interessanter worden, want met twee van die 48GB aan VRAM per systeem realiseren, en als je daar dan twee systemen van neerzet kan je best interessante dingen doen. Wellicht een beetje duur voor een speeltje, maar wel leuk speelgoed :)

Met continue kan je voor verschillende taken andere modellen aanwijzen. Weet iemand ook of je dat werk kan verdelen over meerdere machines zonder dat dit de werking van continue verstoort?

[ Voor 12% gewijzigd door ocf81 op 01-04-2025 19:48 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

Het jeukt bij mij ook. :p Die 8GB RX6650XT trekt het basic "chat" gebeuren wel maar als je wat meer wilt dan houd het snel op.

Verschillende fabrikanten zijn nu bezig om met NPU mini-pc'tjes in deze markt te springen. Een Mac kan het natuurlijk al een tijdje dankzij het Unified Memory principe. Maar een systeem als dit bijv.:
https://www.hp.com/lameri...rkstations/z2-mini-a.html
is wel interessant, mits de prijs er naar is.

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 01:47
CSB schreef op donderdag 3 april 2025 @ 10:05:
Het jeukt bij mij ook. :p Die 8GB RX6650XT trekt het basic "chat" gebeuren wel maar als je wat meer wilt dan houd het snel op.

Verschillende fabrikanten zijn nu bezig om met NPU mini-pc'tjes in deze markt te springen. Een Mac kan het natuurlijk al een tijdje dankzij het Unified Memory principe. Maar een systeem als dit bijv.:
https://www.hp.com/lameri...rkstations/z2-mini-a.html
is wel interessant, mits de prijs er naar is.
Framework bied de zelfde ryzen ai max aan. Door ze door te verbinden via usb4 heb je een 40gbit netwerkverbinding tussen de machines. 2000 USD voor het 128GB moederbord. Voor een netjes geconfigureerd systeempje kan het tot ~3k per machine oplopen. Voor de komende maanden helaas al uitverkocht.

Afbeeldingslocatie: https://images.prismic.io/frameworkmarketplace/Z7eCQJ7c43Q3gCGb_fwdesktop_family_ml_cluster.jpg

Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik ben inmiddels zo enthousiast dat ik heb besloten om een paar 2e-hands Radeon PRO W6800's te gaan kopen. De eerste is inmiddels aangeschaft. In eerste instantie gaat mijn oude 6800XT als 2e kaart dienen en de 7800XT die ik nu in de AI machine heb zitten gaat dan als GPU in mijn spelmachine dienst doen. Het kost een duit, maar hopelijk is het hosten van 70b modellen dan wel mogelijk en ga je echt significant meer plezier beleven aan de AI host als het om langere chats en grotere contexten gaat.

@NESFreak Dat is inderdaad ook iets wat ik heb overwogen, maar ik schat in dat, hoewel er een flinke sloot relatief snel geheugen op de FW DP borden zit, de Strix Halo APU qua verwerkingskracht tekort gaat schieten om een model dat in het geheugen past op een beetje deftige snelheid te presenteren.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

NESFreak schreef op donderdag 3 april 2025 @ 10:13:
[...]


Framework bied de zelfde ryzen ai max aan. Door ze door te verbinden via usb4 heb je een 40gbit netwerkverbinding tussen de machines. 2000 USD voor het 128GB moederbord. Voor een netjes geconfigureerd systeempje kan het tot ~3k per machine oplopen. Voor de komende maanden helaas al uitverkocht.

[Afbeelding]
Oeh, scalable, dat is iets waar ik nog niet aan gedacht had. Hoeveel stroom trekt zo'n systeem ongeveer? Moet nog wel enigszins rekening houden met de WAF. ;)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 01:47
CSB schreef op donderdag 3 april 2025 @ 11:19:
[...]

Oeh, scalable, dat is iets waar ik nog niet aan gedacht had. Hoeveel stroom trekt zo'n systeem ongeveer? Moet nog wel enigszins rekening houden met de WAF. ;)
https://frame.work/nl/en/desktop?tab=specs

CPU heeft een 140W tdp. Complete systeem komt met een 400W voeding. Benchmarks zijn er nog niet echt. Maar puur op basis van geheugenbandbreedte kom je iets als llama 3.3 70b,q4 (43GB) tot zo'n 6 t/s uit.

[ Voor 4% gewijzigd door NESFreak op 03-04-2025 11:40 ]


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

NESFreak schreef op donderdag 3 april 2025 @ 11:32:
[...]


https://frame.work/nl/en/desktop?tab=specs

CPU heeft een 140W tdp. Complete systeem komt met een 400W voeding. Benchmarks zijn er nog niet echt. Maar puur op basis van geheugenbandbreedte kom je iets als llama 3.3 70b,q4 (43GB) tot zo'n 6 t/s uit.
Dat is redelijk wat power zonder dedicated GPU. Jammer alleen dat bijna al dit soort systemen vast zitten (no pun intended) aan gesoldeerd geheugen voor het Unified memory systeem, waardoor upgraden een kostbaar grapje wordt.
Ik zie ze wel als paddestoelen oppoppen deze systemen, dus ff in de gaten houden. ;)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb inmiddels een paar dagdelen gespeeld met continue om een nieuwe Arma 3 game mode te maken. Ik moet zeggen dat ik het zeer leuk speelgoed vind! Ik ben super productief en het maakt programmeren ook minder een sleur voor mij.
Maar waar ik wel een beetje tegen aan loop is dat concepten compleet verkeerd begrepen worden. Daarnaast blijft het nog steeds een 'computer' waar je mee praat. Je moet heel precies zijn in je instructies (iedereen die ooit geprogrammeerd heeft begrijpt denk ik wel wat ik daar mee bedoel.)

Als iemand nog tips heeft om daar beter in te worden, dan hoor ik die graag!

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

Ja, alles valt of staat met je prompt begrijp ik van alles wat ik tot nu toe gelezen heb. Ik moet zeggen, hoe meer ik me in de materie verdiep hoe meer ik denk dat het geheel nog LANG niet zover is dat je het een echte A.I. kunt noemen. Goed, het is wel leuk om mee te rommelen maar de ideeën die ik initieel had heb ik maar laten varen, dat is nog te complex om met mijn beperkte kennis en consumer grade hardware uit te voeren.

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 17:30
ocf81 schreef op vrijdag 4 april 2025 @ 17:21:
Ik heb inmiddels een paar dagdelen gespeeld met continue om een nieuwe Arma 3 game mode te maken. Ik moet zeggen dat ik het zeer leuk speelgoed vind! Ik ben super productief en het maakt programmeren ook minder een sleur voor mij.
Maar waar ik wel een beetje tegen aan loop is dat concepten compleet verkeerd begrepen worden. Daarnaast blijft het nog steeds een 'computer' waar je mee praat. Je moet heel precies zijn in je instructies (iedereen die ooit geprogrammeerd heeft begrijpt denk ik wel wat ik daar mee bedoel.)

Als iemand nog tips heeft om daar beter in te worden, dan hoor ik die graag!
Heb je al geprobeerd om documentatie mee te sturen in je prompt? In ieder geval GitHub Copilot en ChatGPT gebruiken dit dan als context om code te genereren. Dit werkt voor mij vaak beter dan enkel een prompt. Kan Continue dit ook? :)

En oh ja, subjectieve zaken als 'de code moet veilig zijn' of 'het moet wel mooi zijn' moet je ook zo veel mogelijk vermijden. Klinkt makkelijk, is het stiekem niet.

Have you tried turning it off and on again?


Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Gr4mpyC3t schreef op vrijdag 4 april 2025 @ 22:46:
[...]


Heb je al geprobeerd om documentatie mee te sturen in je prompt? In ieder geval GitHub Copilot en ChatGPT gebruiken dit dan als context om code te genereren. Dit werkt voor mij vaak beter dan enkel een prompt. Kan Continue dit ook? :)

En oh ja, subjectieve zaken als 'de code moet veilig zijn' of 'het moet wel mooi zijn' moet je ook zo veel mogelijk vermijden. Klinkt makkelijk, is het stiekem niet.
Continue leunt op de dienstverlening van derden. In mijn geval dus Ollama en de modellen die ik zelf host. Continue heeft een aantal context providers die je kan specificeren: code, docs, diff, terminal, problems, folder en codebase. Ik heb nog niet van alle soorten provider goed in de gaten wat het precies doet. Tot nu toe heb ik alleen code meegestuurd, dus dat is iets waar ik eens mee aan de slag moet.

Maar ik merk wel dat de modellen uit hun context lopen. Opeens worden er dingen vergeten of verdraaid die eerder in het gesprek wel goed werden begrepen. Het vergroten van de context is iets waar ik naar moet kijken, maar dat ga ik eens onderzoeken als ik straks die W6800 met 32GB aan VRAM in mijn Ollama VM heb zitten.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CSB schreef op vrijdag 4 april 2025 @ 22:25:
Ja, alles valt of staat met je prompt begrijp ik van alles wat ik tot nu toe gelezen heb. Ik moet zeggen, hoe meer ik me in de materie verdiep hoe meer ik denk dat het geheel nog LANG niet zover is dat je het een echte A.I. kunt noemen. Goed, het is wel leuk om mee te rommelen maar de ideeën die ik initieel had heb ik maar laten varen, dat is nog te complex om met mijn beperkte kennis en consumer grade hardware uit te voeren.
Ik denk dat het glas inmiddels wel half vol zit. Ja, er is nog een lange weg te gaan, maar er wordt nu wel steeds meer mogelijk. Uiteindelijk is het gewoon een nieuwe set vaardigheden die, in mijn geval althans, wel een positieve ervaring heeft opgeleverd.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Ernemmer
  • Registratie: Juli 2009
  • Niet online
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?

Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.

Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?

[ Voor 22% gewijzigd door Ernemmer op 06-04-2025 12:09 ]


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ernemmer schreef op zondag 6 april 2025 @ 12:08:
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?

Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.

Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?
Tja, dat is inderdaad de vraag die ik voor mijzelf probeer te beantwoorden. Ik heb het idee dat met ca. 14b je oppervlakkige, maar vaak, doch niet altijd, redelijk goede antwoorden krijgt. Als je door gaat graven gaat het echter vaak mis. Ik ben nu bezig om de stap naar ca. 70b te maken, in de hoop dat je daar dan echt iets mee kan. Maar dan zit je wel aan minimaal €2000 aan hardware. Ik hoop dat ik die hardware ook weer kwijt kan als het op niks uitloopt, zodat het bij een paar honderd euro aan leergeld blijft, wat ik te overzien vindt.

Hier een vergelijking van een chat die ik had met Llama-3.2 Vision 11b en ChatGPT over twee ontwerpen van een printerkast, waarbij een vriend van mij zijn ChatGPT abonnement voor de vergelijking ter beschikking stelde.

Plaatje 1:
Afbeeldingslocatie: https://rotjes.bangblog.eu/tweakers/gathering/2289892%20-%20AI%20Chatbots/2024-07-24%20printerkast%20right%20front%20top.jpg

Plaatje2:
Afbeeldingslocatie: https://rotjes.bangblog.eu/tweakers/gathering/2289892%20-%20AI%20Chatbots/2025-03-02%20printerkast%20v3%20left%20front%20top.jpg


Chat Llama-3.2 Vision 11b

ChatGPT-4o

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Pietert
  • Registratie: Januari 2001
  • Niet online

Pietert

There is no spoon

Ben bepaald geen code wizard maar gebruik de tools zoals Bolt.new, Claude, Supabase, Perplexity Pro (gratis voor Ziggo klanten) en anderen voor snelle POC's.

Daar merk ik dat als ik een combinatie maak van tools ik het beste geholpen ben, als ik het met 1 tool probeer op te lossen dan loop ik tegen de beperkingen aan. Wellicht is dat voor alleen code met hulp van AI ook een goede optie om uit te proberen.

Voorbeeld:
Ik gebruik Perplexity om eerst vragen te stellen over hou ik iets op zou lossen. Hier combineer ik eigen context met wat Perplexity Deep Research online kan vinden. Dat zijn wat vragen heen en weer voor aanscherping tot ik denk te hebben wat ik zoek. Daar vraag ik een samenvatting van.
Die samenvatting geef ik mee aan Claude, die vraag ik met mijn context "ik ben een programmeur die etc" plus de samenvatting een goed prompt te schrijven voor Bolt.new of ChatGPT. In Bolt gaat mijn oplossing voor test preview binnen die app maar als ik het live een rondje wil gebruiken en testen dan via Supabase voor een echte backend.

Lang verhaal kort: gebruik meerdere ai tools in een rij voor het beste resultaat en switch modellen gebaseerd op de context die je hebt. Hoop dat het iemand helpt hier!

#huiskamer | Amsterdammert | Some days you're the pigeon, some days you're the statue | Zenbook S13 UM5302TA-LV067W | LG 40WP95CP-W | HP USB-C dock G5


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Heb je ook ervaring met zelf gehoste AI en kan je dan ook aangeven waar jij grote verschillen ziet?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • The-Source
  • Registratie: Augustus 2001
  • Nu online
Ernemmer schreef op zondag 6 april 2025 @ 12:08:
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?

Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.

Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?
Op je eerste vraag, je investering kosten kan je genoeg maanden abonnement nemen en als je echt hele grote modellen te gebruiken gaat het gaat echt in de papieren lopen. Maar thuis heb je een keuze welk model je wilt gebruiken en zo ook of je een ongecensureerde model wilt gebruiken.
En ook niet te vergeten je data blijft lokaal dat vind ik nog het meeste waard.
Ga je met stable-diffusion aan de slag dan heb je ook alle vrijheid en als ik gratis chat-gpt Vergelijk met nu thuis met 3090 en SD dan is de snelheid niet te vergelijken en de kwaliteit van output ook niet ( kost wel nodige vrije uurtje om opzet goed te krijgen ;) )

Taal fouten inbegrepen ;)
Mijn AI Art YouTube kanaal


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb een van de mods gevraagd om de topictitel te veranderen en ik heb vervolgens de OP aangepast. In plaats van puur een focus op code assistenten heb ik de focus enigszins verlegd naar alle zelf gehoste AI assistenten. Moet nog wat uitzoekwerk doen voor het genereren van plaatjes.
Als iemand co-auteur wil worden om een bijdrage te leveren, dan is dat geen probleem.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • i-chat
  • Registratie: Maart 2005
  • Niet online
ik hoor en lees hier vooral heel veel over 3090's 4080's en radeon pro's maar voor nvidia geld toch dat alles met een cuda score van 5.0 of hoger eigenlijk al wel werkt. effectief zou elke 1050 die je 2e hands uit v&a kunt halen dan toch moeten werken.

als ik dan op YT zie dat mensen zelfs al met raspberry pi's aan de slag gaan dan heb ik al helemaal zoiets van uh ok?

het grootste probleem waar ik dan mee zit is hoe zit het nu echt, en in hoeverre zou ik bijvoorbeeld een mining adaptor uitvoering: Delock 41427 kunnen gebruiken om een paar gtx 1050 of intel ark a380s toe te voegen

of mis ik nu iets cruciaals?

[ Voor 23% gewijzigd door i-chat op 16-04-2025 22:50 ]


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ja, goeie vraag. Ik heb zelf maar twee PCI-e sloten beschikbaar in mijn server en geheugen is toch wel koning, zoals al uitgelegd in review: AI op AMD- en Nvidia-videokaarten - Taalmodellen, upscaling en imageg.... Mijn 2e W6800 is inmiddels besteld.
Mijn vermoeden is dat het inladen van een 27b model best lang gaat duren als je dan 10 1050's met hun 3GB aan VRAM naast elkaar zet en over USB gaat inladen. Ik weet ook niet wat het doet met het verwerken van de context. Kleine modellen die op een RPi gaan draaien lijken me vooral spielerij. Je merkt echt een aanzienlijk verschil als je grotere modellen gaat draaien. Het enige model dat ik nog draai dat kleiner dan 30b is, is Phi4, omdat er geen grotere versie van is. En een GPU is echt koning als het om verwerkingssnelheid gaat.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Nieuws over een W9000-serie kaart met 32GB: tomshardware.com videocardz.com
Discussie op r/LocalLLaMA

Persoonlijk denk ik dat het aan de prijs zal liggen of deze kaart interessant zal zijn. Zoals al genoemd is de uitvoering: AMD Radeon Pro W7900 waarschijnlijk sneller en heeft die meer geheugen aan boord, maar deze kost een lieve duit.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • PtrickTk
  • Registratie: December 2020
  • Laatst online: 23-05 14:26
We zijn nu een aantal weken aan het spelen met lokale AI assistenten. Ik heb wat oudere hardware gepakt om te kijken of we het technisch werkbaar kunnen krijgen.

Op dit moment draaien we Ollama met een OpenWeb UI voor de interface. Daarnaast draait een LiteLLM proxy om externe modellen via dezelfde omgeving aan te bieden.
We willen de omgeving wat opwaarderen om grotere modellen te kunnen draaien. We willen via een RAG model eigen documenten en kennis gebruiken in bestaande modellen.

Technisch werkt het, maar we willen nu een server/workstation aanschaffen om wat meer prestaties uit onze omgeving te halen. Hebben jullie al moderne(re) hardware aanschaft specifiek voor het laten werken van een LLM, niet om iets te gaan trainen.

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik had eerst een enkele W6800 als VM draaien. Ik ben bezig om mijn oude desktop op te zetten als AI machine, met twee W6800's. Maar helaas doet de KVM moeilijk en zit ik even in een dalletje met de installatie. Ik ben nog bezig met uitzoeken waar het aan ligt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 08:41

CSB

:D

Ik concludeer dat momenteel het kiezen is tussen twee kwaden; of je kiest een superdure GPU met veel VRAM, maar beperkt je tot modellen die tot 16 of 24 GB VRAM kunnen worden ingeladen;
óf je kiest voor een compleet systeem met gesoldeerd Unified RAM met hoge kloksnelheden die je kunt inzetten om grotere modellen in te laden. Echter is de performance daarvan ook niet heel best en zijn dergelijke systemen voor "thuisgebruik" erg duur.

Al met al ben je op zijn minst 1000 tot 3000 euro lichter en heb je alsnog een systeem dat beperkt is.

In mijn situatie wil ik wel wat investeren maar ik vind 1000 euro voor een hobbyprojectje echt wel teveel.

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het is inderdaad geen goedkope hobby, maar ik zie er wel genoeg potentie in om er ca €3000 in te steken omdat het mij ook wel helpt om mijn professionele competenties bij te schaven. Voor mij is het dus een deel hobby en een deel leergeld.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +3 Henk 'm!

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
ik heb vandaag wat uit zitten proberen met ollama en open-webui.

Mijn specs: RTX 2080 8GB vram, I7-9850H, 32GB 2227Mhz ram. (oud beestje, heeft me €350 gekost)

Mijn conclusie is dat het heel erg uitmaakt wat je wil doen met je llm, waar je deze voor kan gebruiken.
Sowieso moet ik de verkleinde modellen gebruiken (GGUF), maar dat is niet zo erg omdat bij dat uitvinden wat een goed model je voor je is, ik niet tientallen GBs hoef te downloaden, maar max 5.

Daarnaast is de grootte van de context size (de hoeveelheid tekst die het model in het geheugen kan houden) minstens zo belangrijk als het model zelf. Voor iedereen die beperkt is in VRAM, zoals ik en toch een model lokaal op de GPU wil draaien, raad ik het volgende aan:
  • Ga voor een GGUF model (abliterated is geen gek idee (ongecensureerd))
  • Een 8B Q3 model is beter dan een 4B Q8 model van dezelfde grootte
  • Houd ruimte vrij in je VRAM voor je context size (in mijn geval een model van max 5GB)
  • Zet je context size niet té groot (in mijn geval zo'n 12K)
  • Je hoeft niet altijd van het denken van de "reasoning" modellen gebruik te maken
  • Kies een model dat past bij je doeleinde, probeer wat uit en zoek wat rond
  • Vooralsnog is een automatisch, blijvend geheugen niet zo gemakkelijk op te zetten als de llm zelf. Het analyseren van de tekst wordt óók door een llm gedaan, meestal een externe partij. Als je het om de privacy doet of offline wil werken, is er nog werk aan de winkel
  • Blijf op de hoogte van ontwikkelingen, het gaat snel
  • Gebruik google gemini voor al je vragen. ChatGPT kan ook, je kan ze met elkaar wegen maar ik vind gemini hierin beter.
  • verwacht niet dat je een goede output krijgt op deze hardware. Je kan een groter model als Qwen3 30B:A3B laden en langzaam een reactie krijgen van aardige kwaliteit, maar het is (nog) niet mogelijk om een antwoord te krijgen op een inhoudelijke vraag die niet ergens íets achterwege laat. Vandaar dat ik een model dat snel en "gespreksgericht" is, fijner vindt. Hiervoor heb ik hermes3 gekozen.

[ Voor 18% gewijzigd door Thonz op 31-05-2025 15:32 ]


Acties:
  • 0 Henk 'm!

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 17:21

DeNachtwacht

youtube.com/@hisrep

Interessant topic, verbaast me bijna dat er nog zo “weinig” reacties in zijn gezien de populariteit van AI. Ik wil er binnenkort ook eens mee gaan experimenteren, mijn workstation heeft een RTX 4090, AMD 5950x gpu en 64gb ram dus aardig wat speelruimte voor een thuisgebruik pc.

Nu weet ik dat het antwoord ongetwijfeld nee is ;) maar ik hoopte iets met video genereren te kunnen dat richting Veo 3 gaat. Ik neem aan dat dat op eigen hardware echt uit den boze is, of is er toch op één of andere manier mee te experimenteren? Ben benieuwd wat voor advies jullie zouden hebben om te starten met plaatjes / video genereren op een eigen pc.

youtube.com/@hisrep


Acties:
  • 0 Henk 'm!

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
hoeveel VRAM heb je? Enneh, die 5950x is toch een CPU?

Acties:
  • 0 Henk 'm!

  • Yarisken
  • Registratie: Augustus 2010
  • Laatst online: 15:06
Ik draai de lichte versies thuis met 32GB ram zonder deftige GPU via ollama. Leuk om mee te spelen.
Op termijn wil ik ervaring opdoen om dit op het werk te gaan integreren ivp betaalde copilot te gebruiken.

Acties:
  • 0 Henk 'm!

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
Ik ben nog bezig geweest met het zoeken naar een goede manier van RAG (kennis databases) toepassen.
Ik heb het volgende gevonden (zie mijn systeem hierboven):

-Content extraction engine: Tika
-Chunk size: 512 / 100 overlap
-Text splitter: token
-Embedding: scentence transformers met BAAI/bge-m3
-Hybrid search aan
-Reranking engine: default met BAAI/bge-reranker-v2-m3
-Top K 10, reranker 3, relevance threshold 0.15
Redelijk standaard prompt:
### Task:
Respond to the user query using the provided context, incorporating inline citations in the format [id] **only when the <source> tag includes an explicit id attribute** (e.g., <source id="1">).

### Guidelines:
- If you don't know the answer, clearly state that.
- If uncertain, ask the user for clarification.
- Respond in the same language as the user's query.
- If the context is unreadable or of poor quality, inform the user and provide the best possible answer.
- If the answer isn't present in the context but you possess the knowledge, explain this to the user and provide the answer using your own understanding and mark them with an asterisk.
- **Only include inline citations using [id] (e.g., [1], [2]) when the <source> tag includes an id attribute.**
- Do not cite if the <source> tag does not contain an id attribute.
- Do not use XML tags in your response.

De data die ik in de RAG voedt zijn boeken over onderwerpen waar ik meer over wil weten. Deze boeken zijn gesplitst in hoofdstukken en bestaan uit .txt bestanden. Waarschijnlijk zijn ze al lang opgenomen in het model (ik vermoed dat de gehele libgen database opgenomen is in de trainingsset) maar doordat ik een klein model gebruik kan ik hiermee de kennis die verloren is door het optimaliseren, "terugwinnen". Zo kan ik gerichte vragen stellen over stof die in een online cursus wordt behandeld. De prompt voor het model ben ik nog aan het verbeteren, maar ik merk ook dat dat van groot belang is.

Het model dat ik hiervoor gebruik is hf.co/unsloth/gemma-3-4b-it-qat-GGUF:UD-Q4_K_XL omdat het snel reageert, prima antwoorden geeft en ruimte overlaat voor de context (16K) en toch in VRAM past. Daarnaast zorg ik dat alle layers op de GPU worden geladen door de num_gpu (Ollama) op 255 te zetten.

Response tokens zijn 62/s
Prompt tokens zijn 2150/s

[ Voor 7% gewijzigd door Thonz op 06-06-2025 13:55 ]


Acties:
  • 0 Henk 'm!

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 17:21

DeNachtwacht

youtube.com/@hisrep

Thonz schreef op donderdag 5 juni 2025 @ 22:22:
hoeveel VRAM heb je? Enneh, die 5950x is toch een CPU?
De 5905X is een cpu, maar dat lijkt me ergens ook nuttig, of is het puur GPU die telt voor dit soort AI modellen? De RTX 4090 die ik heb is de founders edition met 24GB VRAM (maar dat heeft de 4090 volgens mij altijd?)

Voor zover ik nu google en zoek zijn mijn beste kansen bij wan ai 2.1, klopt dat? En kun je met die tools ook hogere resoluties genereren? Zo te zien is zelfs veo 3 in de cloud max 720p blijkt als ik er onderzoek naar doe?

youtube.com/@hisrep


Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
De CPU ontbeert gewoon de parallelle rekenkracht om snel zijn werk te doen. Tevens is de geheugenbandbreedte ontoereikend om snel genoeg het model te raadplegen.

Een mooie vergelijking:
Ik heb met mijn 5800X en 128GB geheugen eens de vraag gesteld welke luchtmachtbases allemaal actief zouden zijn bij een Fulda gap scenario. Het model had 14b parameters.
De CPU deed er ruim 6 uur over. Later nog eens gevraagd met een GPU erbij (7800XT) dat duurde 3 minuten.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • DeNachtwacht
  • Registratie: December 2005
  • Laatst online: 17:21

DeNachtwacht

youtube.com/@hisrep

Maar ik lees dan wel weer dat je met grote taalmodellen er weer wel iets aan hebt als je naast de GPU een cpu met veel cores hebt, hoe zit dat dan?

youtube.com/@hisrep


Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
DeNachtwacht schreef op vrijdag 6 juni 2025 @ 18:07:
Maar ik lees dan wel weer dat je met grote taalmodellen er weer wel iets aan hebt als je naast de GPU een cpu met veel cores hebt, hoe zit dat dan?
Als het model de geheugenruimte van de GPU overstijgt gaat de CPU dat voor een deel opvangen. Bepaalde zaken worden ook op de CPU afgehandeld, maar ik weet niet precies welke. Voor mij is een 5800X genoeg, zolang er maar een GPU met veel VRAM aan hangt.

meer info

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +1 Henk 'm!

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
De reden dat ik dat vroeg was omdat je zei:
Om op je vraag terug te komen, het beste is om het gehele model in GPU te houden en de quant (mate van optimalisatie) te kiezen die daarbij past.
Ik heb nog geen ervaring met het genereren van video, maar ik zou eens hier kijken voor de meest gebruikte modellen die in je VRAM passen.

Wat @ocf81 zegt klopt inderdaad. Zodra je zaken gaat versprieden over GPU en CPU moet er gegevensoverdracht plaatsvinden tussen die twee, met de geheugebus als bottleneck.

Ik zou vooral nog alles wat ik en anderen je vertellen zelf natrekken. Gemini en Claude vind ik hiervoor erg nuttig.
ocf81 schreef op vrijdag 6 juni 2025 @ 18:01:
Ik heb met mijn 5800X en 128GB geheugen eens de vraag gesteld welke luchtmachtbases allemaal actief zouden zijn bij een Fulda gap scenario. Het model had 14b parameters.
De CPU deed er ruim 6 uur over. Later nog eens gevraagd met een GPU erbij (7800XT) dat duurde 3 minuten.
Zonder je prompt te weten is er natuurlijk geen vergelijking te maken, maar dit is wat gemma-3-4b-it-qat-GGUF:UD-Q4_K_XL mij vertelde op de prompt: "In a fulda gap scenario, which airforce bases in the Netherlands will be active?"

Okay, let's break down which Dutch air force bases would likely be active in a Fulda Gap scenario. This is a complex hypothetical, and the exact situation would depend on the scale and nature of the conflict, but here's a breakdown based on current Dutch military doctrine and strategic considerations:

Likely Active Bases & Their Roles:


Leeuwarden Air Base (KbvL): This is the key base. Leeuwarden is the primary location for the F-35 Lightning II fighter jets currently deployed in the Netherlands. It would be absolutely central to any rapid reinforcement of the front lines. Its role would be:
Rapid Reinforcement: F-35s would be rapidly deployed to the front to provide air superiority, strike capabilities, and reconnaissance.
Air Defense: Supporting ground forces against Russian air attacks.
Command & Control: Serving as a key node for coordinating air operations.


De Kooy Air Base (KbvK): De Kooy is a significant base with a diverse range of capabilities. It would likely be involved in:
Support Aircraft: Providing support to Leeuwarden, including tankers, electronic warfare aircraft, and potentially transport aircraft.
Ground Attack Support: Potentially deploying F-16s (though less likely than F-35s in a rapid reinforcement scenario) for ground attack missions.
Logistics & Maintenance: Supporting the movement and maintenance of aircraft.


Volkel Air Base (KbvV): Volkel is a crucial base for long-range strike capabilities and air defense. It would likely be involved in:
Long-Range Strikes: Supporting attacks against Russian forces further behind the front lines.
Air Defense: Contributing to the overall air defense network.
Intelligence, Surveillance, and Reconnaissance (ISR): Providing vital intelligence on enemy movements.


Gilze-Rijen Air Base (KbvG): Gilze-Rijen is a major maintenance and logistics hub. It would be vital for:
Aircraft Maintenance: Ensuring that aircraft are ready for deployment and operation.
Logistics: Managing the flow of supplies, fuel, and ammunition to the front lines.
Electronic Warfare: Supporting electronic warfare operations.


Less Likely, but Possible:

Eelde Air Base (KbvE): Eelde is primarily a helicopter base. Helicopters would be invaluable for reconnaissance, troop transport, and medical evacuation. Its role would be supporting the ground forces.


Important Considerations & Caveats:

Scale of the Fulda Gap Scenario: The number of aircraft deployed and the level of activity at each base would depend heavily on the size and intensity of the conflict.
NATO Coordination: The Netherlands is part of NATO. Any deployment would be coordinated with other NATO allies, particularly Germany and the United States.
Dutch Air Force Doctrine: The Netherlands has a relatively small air force. Their role would be to rapidly reinforce the front lines, not to engage in large-scale air campaigns.


Resources for Further Research:

Royal Netherlands Air Force Website: https://www.defensie.nl/en/news/royal-netherlands-air-force
Wikipedia - Royal Netherlands Air Force: Wikipedia: Royal Netherlands Air Force


Do you want me to delve deeper into a specific aspect of this, such as:

The types of missions the Dutch aircraft would likely undertake?
The logistical challenges of deploying aircraft through the Fulda Gap?
The role of Dutch air defense systems?


Van het moment dat ik op enter drukte tot geheel antwoord duurde het 14 seconden

overigens klopt de link van de Nederlandse luchtmacht niet: het moet https://english.defensie.nl/organisation/air-force zijn. Dit is wat ik bedoelde met de kwaliteit van de antwoorden in mijn eerste post in dit topic.

[ Voor 74% gewijzigd door Thonz op 06-06-2025 19:19 ]


Acties:
  • 0 Henk 'm!

  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 16:31
Wat een interessant topic!
Wij waren al van plan om een thuisserver te bouwen en bekijken nu ook de mogelijkheid om lokaal llm's te draaien.

In eerste instantie dacht ik om voor een Intel 1700 processor te gaan (bv 13900/14900) die tweedehands aangeboden worden. Dit omdat deze energiezuinige e cores hebben icm performance cores . Het zou zo te tunen moeten zijn dat dit redelijk zuinig uitpakt.

Ik twijfel nu wel welk moederbord het meest geschikt is voor in de toekomst 2 3090 gpu's samen te kunnen draaien. In eerste instantie is een 3090 de bedoeling, maar ik wil het systeem zo schaalbaar maken zodat een tweede erbij geprikt kan worden voor de llm's.
Nu heb ik wat ingelezen en ik zie dat een mobo wat die twee keer x pic lanes voor de gpu's ondersteund lastig te vinden zijn voor het 1700 socket.
Voor het AMD AM5 platform zijn deze wel beter beschikbaar. Aan de andere kant is het performance issue van een tweede gpu die niet op 8 lanes draait ook niet heel groot. Welk moederbord zou dan het meest geschikt zijn die voordelig is?

Qua geheugen is het advies geloof ik hoe meer hoe beter. Ik denk aan eerst twee modules van 32gb te kopen en later dan nog 64gb erbij te plaatsen als dat nodig is.

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Een beetje geheugen is wel handig, maar je wil vooral dingen op de GPU draaien. De verhalen verschillen een beetje wat nu de ondergrens is qua verbinding met de kaart. Sommigen zeggen dat 3.0 x4 wel oké is. Ik hanteer zelf PCI-e 4.0 x8 per kaart, mede omdat het inladen van grote modellen toch best wat tijd kost.

Nog wat handige info:

https://aightbits.com/202...ons-for-multi-gpu-builds/

https://old.reddit.com/r/...speedgenlanes_when_doing/

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 16:31
ocf81 schreef op zondag 8 juni 2025 @ 15:02:
Een beetje geheugen is wel handig, maar je wil vooral dingen op de GPU draaien. De verhalen verschillen een beetje wat nu de ondergrens is qua verbinding met de kaart. Sommigen zeggen dat 3.0 x4 wel oké is. Ik hanteer zelf PCI-e 4.0 x8 per kaart, mede omdat het inladen van grote modellen toch best wat tijd kost.

Nog wat handige info:

https://aightbits.com/202...ons-for-multi-gpu-builds/

https://old.reddit.com/r/...speedgenlanes_when_doing/
Dank je wel voor de informatie. Ik zag dat een uitvoering: ASUS ProArt Z790-CREATOR WIFI wel twee keer pci5 x16 ondersteund op het 1700 socket.
Dan zouden twee 3090's kunnen draaien op x8 lanes.
Volgens de tabel uit de eerste link zou dat een doorvoer snelheid hebben van 32GB/s, dat lijkt mij wel voldoende omdat een 3090 zelf pcie gen 4 is.
Klopt dat of is dit dan overkill en kan ik beter naar een andere goedkopere versie zoeken?

Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik zou kijken naar wat voor jou haalbaar is en wat nodig is. PCI-e 5.0 is niet noodzakelijk als je met 3090's gaat werken. Sneller dan PCI-e 4.0 snelheden ga je dan niet halen. Als je eventueel t.z.t. wil upgraden naar een 5090 o.i.d. is het dan echter wel weer fijn om achter de hand te hebben.
Zoals al wordt beschreven in de aangehaalde links in mijn eerdere bericht is het voornamelijk fijn om zo modellen sneller in te laden, en ik merk dat dit toch wel een paar seconden kan duren met een wat oudere kaart en minder bandbreedte.
Als je ook aan training gaat doen, maar dat lijkt nu niet het geval te zijn, wordt het een andere zaak. Dan is een Threadripper of Epyc wellicht de betere keus omdat je dan de volle bandbreedte ter beschikking hebt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Tips voor de kunst van het prompten:

[ Voor 4% gewijzigd door ocf81 op 10-06-2025 14:59 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +1 Henk 'm!

  • Julianvvz
  • Registratie: April 2013
  • Laatst online: 16:15
Interessante topic! Ik ga deze zeker volgen.

Zelf ben ik commercieel bezig met het opzetten en exploiteren van lokale AI machines voor bedrijven. Dit is een alternatief voor cloud LLMs diensten zoals ChatGPT en Gemini. Niet meer afhankelijk zijn van de cloud / USA/China, ongelimiteerde hoeveelheid accounts, mogelijkheid tot het ontsluiten van bedrijfs knowledge bases en ook nog eens te koppelen met bedrijfsprocesautomatisering tools.

Het is een bijzondere wereld met extreme snelle ontwikkelingen in modellen, hardware, en 'awareness' onder de klanten. Ik zal t.z.t. wel eens iets delen.

Acties:
  • +1 Henk 'm!

  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 15:31

Reacher

oldschool

Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.

Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.

Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.

Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.

but I don't like you in that way
the best things in life are illegal
born to do porn!


Acties:
  • 0 Henk 'm!

  • daily.data.inj
  • Registratie: Januari 2019
  • Niet online
Reacher schreef op dinsdag 10 juni 2025 @ 15:47:
Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.

Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.

Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.

Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.
Hoelangt duurt het ongeveer voordat je een antwoord hebt zonder GPU maar met een bak aan RAM?
Ik ben zelf aan het experimenteren met AnythingLLM(Ollama/Mistral) zonder GPU en met ongeveer 20GB RAM maar ik vind het antwoord best lang duren. Ik heb nog 64GB liggen dus als dat helpt is dat best interessant.

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Eigenlijk is inferencing op een CPU alleen maar interessant als je een dikke server hebt, want een desktop heeft gewoonweg niet het aantal cores en geheugenkanalen om ook maar enigszins acceptabele prestaties neer te zetten. Dan zit je echt te kijken naar uren wachten voor een simpele vraag. De hoeveelheid geheugen zorgt er vooral voor dat je een groter model kan draaien. Maar een groter model heeft ook grotere hardwarevereisten. NPU's zijn denk ik vooral leuk voor heel kleine modellen. (<2b parameters)

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 15:31

Reacher

oldschool

Kleiner model met 7 cores en redelijk wat ram is voor de taken die ik er mee doe, extractie, analyse en samenvattingen maken prima werkbaar. Nogmaals, ik gebruik het niet als een assistent maar als een agent

but I don't like you in that way
the best things in life are illegal
born to do porn!


Acties:
  • 0 Henk 'm!

  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 15:31

Reacher

oldschool

daily.data.inj schreef op dinsdag 10 juni 2025 @ 17:23:
[...]


Hoelangt duurt het ongeveer voordat je een antwoord hebt zonder GPU maar met een bak aan RAM?
Ik ben zelf aan het experimenteren met AnythingLLM(Ollama/Mistral) zonder GPU en met ongeveer 20GB RAM maar ik vind het antwoord best lang duren. Ik heb nog 64GB liggen dus als dat helpt is dat best interessant.
Ik wil wel een use case voor je meten, als je met een use case komt dan benchen we dat

but I don't like you in that way
the best things in life are illegal
born to do porn!


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Alex Ziskind heeft een GMKTec EVO-X2 weten te bemachtingen. Dat is een machine met een Strix Halo 395+ en 128 GB RAM. Er is nog geen ROCm voor, dus hij heeft het geprobeerd met Vulkan:

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • BounceCloud
  • Registratie: Juni 2007
  • Laatst online: 16:43
Reacher schreef op dinsdag 10 juni 2025 @ 15:47:
Ik gebruik een Intel Nuc met 64GB ram, geen GPU. Met 64GB kom je nog wel redelijk uit de voeten qua modellen laden.

Volgende modellen gebruik ik:
llama 3.2 3B
llama 3.1 8B
llama 3.1 70B
Hermes 2 pro llama 3 8B.

Ik gebruik het niet in een gui maar wel voor agents. Dan is tokens per second allemaal minder van belang. De agents kan ik weer in een eigen app aansturen of aanroepen via een chatgui met hogere tokens per second.

Voor zaken die ik absoluut niet in de cloud wil hebben, ook niet private (want wat is nu echt private?) route ik dat naar deze oplossing.
Wat voor NUC heb je? Ik heb recent een server gebouwd met een i5-13500 en 128GB RAM, maar bijvoorbeeld llama 3.1 8B heeft een hele lage output. Een prompt als "Can you give me a 3 word rime?" duurt 1,5 minuut om een antwoord te produceren.

Met kleinere modellen lijkt het niet veel beter te zijn, dus ik ben op zoek of ik iets mis om te tweaken. Ik gebruik een andere UI (AnythingLLM) om met Ollama-server te interacteren.

Acties:
  • +1 Henk 'm!

  • Reacher
  • Registratie: Januari 2001
  • Laatst online: 15:31

Reacher

oldschool

BounceCloud schreef op woensdag 11 juni 2025 @ 17:17:
[...]


Wat voor NUC heb je? Ik heb recent een server gebouwd met een i5-13500 en 128GB RAM, maar bijvoorbeeld llama 3.1 8B heeft een hele lage output. Een prompt als "Can you give me a 3 word rime?" duurt 1,5 minuut om een antwoord te produceren.

Met kleinere modellen lijkt het niet veel beter te zijn, dus ik ben op zoek of ik iets mis om te tweaken. Ik gebruik een andere UI (AnythingLLM) om met Ollama-server te interacteren.
Llama.cpp gebruiken met GGUF (Generalized GGML Unified Format) models.

but I don't like you in that way
the best things in life are illegal
born to do porn!


Acties:
  • 0 Henk 'm!

  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 16:31
@BounceCloud kan je aangeven hoe jouw setup er verder uitziet? Daar ben ik wel benieuwd naar en welke taken je uitvoert en hoe dit je bevalt.

Acties:
  • +1 Henk 'm!

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
Ik heb mijn pc destijds gekocht op troostwijk auctions.Er staan nu een aantal te koop die ik zou kopen als ik zelf aan de slag zou willen met LLMs. Deze lijkt me bijvoorbeeld wel aardig daarvoor. Al moet je wel even kijken of er nog anderen bieden. Zo te zien koopt @Detmer veel van de aangeboden PCs op verkoopt ze door op zijn eigen site dus mocht je achter het net vissen, heb je nog kans ;)

[ Voor 7% gewijzigd door Thonz op 12-06-2025 18:17 ]


Acties:
  • 0 Henk 'm!

  • _Uploader_
  • Registratie: Februari 2005
  • Laatst online: 16:31
Thonz schreef op donderdag 12 juni 2025 @ 16:53:
Ik heb mijn pc destijds gekocht op troostwijk auctions.Er staan nu een aantal te koop die ik zou kopen als ik zelf aan de slag zou willen met LLMs. Deze lijkt me bijvoorbeeld wel aardig daarvoor. Al moet je wel even kijken of er nog anderen bieden. Zo te zien koopt @Detmer veel van de aangeboden PCs op verkoopt ze door op zijn eigen site dus mocht je achter het net vissen, heb je nog kans ;)
Interessant! Zelf kom ik nooit op het idee om veilingen in de gaten te houden voor interessante opties.
Koop je dan in dat geval geen oude meuk die teveel stroom vreet en dat nieuwe componenten sneller en zuiniger zijn?

Acties:
  • 0 Henk 'm!

  • Julianvvz
  • Registratie: April 2013
  • Laatst online: 16:15
_Uploader_ schreef op donderdag 12 juni 2025 @ 21:33:
[...]

Interessant! Zelf kom ik nooit op het idee om veilingen in de gaten te houden voor interessante opties.
Koop je dan in dat geval geen oude meuk die teveel stroom vreet en dat nieuwe componenten sneller en zuiniger zijn?
Nieuwere architectuur is vaak wel zuiniger dus als het je gaat om kWh/token dan zou ik hier niet voor gaan. Je kunt een 70B model technisch draaien op een oude pc met 128 GB DDR4 geheugen, maar het is te traag voor praktisch gebruik. Verwacht zo'n 1 token per seconde.

Acties:
  • 0 Henk 'm!

  • Thonz
  • Registratie: Oktober 2008
  • Niet online
Julianvvz schreef op vrijdag 13 juni 2025 @ 10:13:
[...]


Nieuwere architectuur is vaak wel zuiniger dus als het je gaat om kWh/token dan zou ik hier niet voor gaan. Je kunt een 70B model technisch draaien op een oude pc met 128 GB DDR4 geheugen, maar het is te traag voor praktisch gebruik. Verwacht zo'n 1 token per seconde.
De onderliggende aanname is inderdaad wel dat de PC hobbymatig/uit interesse wordt aangeschaft. Met die hardware zijn er natuurlijk geen vergelijkbare prestaties te verkrijgen als met een situatie waarin eenzelfde grootte model geheel in VRAM wordt ingeladen.
Het is wel een mogelijkheid natuurlijk om lokaal met grotere modellen te werken zonder dat daar meerdere duizenden euro's aan GPUs gekocht hoeven worden. (los van nieuwere macs/ai-specifieke NUCs)

Hoewel voor die prijs, api toegang via openrouter een soortgelijk pad mogelijk maakt met rekenkracht die niet/nauwelijks lokaal te realiseren is.

Je opmerking klopt goed en is zeker het overwegen waard
ocf81 schreef op dinsdag 10 juni 2025 @ 20:34:
Alex Ziskind heeft een GMKTec EVO-X2 weten te bemachtingen. Dat is een machine met een Strix Halo 395+ en 128 GB RAM. Er is nog geen ROCm voor, dus hij heeft het geprobeerd met Vulkan:

[YouTube: Nvidia, You’re Late. World’s First 128GB LLM Mini Is Here!]
Interessant! Wat mij opviel: de versie die hij heeft getest (Ryzen AI Max+ 395, 128GB RAM en 2TB HDD) is de €2000 die ze ervoor vragen niet waard.
Hopelijk is dit een goed bewijsmateriaal dat fabrikanten nodig te hebben om meer op deze systemen in te zetten!

[ Voor 55% gewijzigd door Thonz op 14-06-2025 13:23 ]


Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik had al wel eens van Wave, de terminal emulator met LLM integratie, gehoord, maar nu blijkt er ook een open source tegenhanger te zijn die gebruik kan maken van lokaal gehoste LLM's: https://www.waveterm.dev/

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave

Pagina: 1