Ervaringen met zelf gehoste AI assistenten

Pagina: 1
Acties:

Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter

inleiding

De laatste paar jaar heeft AI een definitieve indruk achtergelaten als het om taken gaat waar veel informatie moet worden verwerkt. Enquêtes laten zien dat AI veelvuldig gebruikt wordt bij taken als het het schrijven van code. Veel van deze diensten zijn echter gebaseerd op de cloud, en dat vindt niet iedereen even prettig. Daarom zijn er ook AI runners die op je eigen hardware kunnen draaien. Voorbeelden hiervan zijn o.a.: Ollama vLLM en LM Studio, hoewel het laatste meer een voorbeeld is van een desktopapplicatie, terwijl de eerste twee meer voorbeelden zijn van dingen die je ook als server kan gebruiken.

Modellen

Natuurlijk zijn er meerdere soorten modellen. De meeste vrij beschikbare modellen. Bekende repo's voor modellen zijn o.a.:Er zijn een aantal verschillende soorten toepassingen voor een model, en niet alle modellen kunnen alle soorten taken even goed uitvoeren.
Vision modellen zijn bijvoorbeeld goed in het verwerken van plaatjes. Coding modellen zijn relatief sterk in het opstellen en/of verwerken van code. Multi-expert modellen zijn een combinatie van modellen met elk een specifieke focus. En een instruct model is heel goed in het opvolgen van aanwijzingen. (dit is in de meeste gevallen overigens meer een kwestie van parameters dan van expliciete training)
Chat modellen zijn direct te gebruiken, maar soms wil je de assistentie van een ander model.
Embedding modellen zijn bijvoorbeeld specifiek gemaakt om media te formatteren voor LLM-gebruik.
Een apply model maakt het mogelijk om bijvoorbeeld een stuk tekst in te voegen in een bestaande tekst zonder alles over te schrijven.

Front-ends

Om een LLM op een beetje gebruiksvriendelijke manier te ontsluiten kan je een front-end gebruiken. Een paar bekende zijn:
Open WebUI, een Docker container die een web-based front-end serveert met een chatinterface. Deze kan zowel met externe als met locale LLM servers babbelen.
Page Assist, een plugin die je kan instellen om met een eigen Ollama instantie te verbinden.
AnythingLLM, een web-based front-end.

Naast chatten met een LLM zijn er ook toepassingen die gebruik kunnen maken van LLM's over het netwerk. Een vanb de meest bekende opties is het ondersteuenen van programmeerwerkzaamheden d.m.v. LLM's. Voor je IDE zijn er ook plug-ins:

Nuttige informatie:

Overwegingen bij het kiezen van hardwareopzet
Welke modelrunner?
ollama GitHub

[ Voor 94% gewijzigd door ocf81 op 15-04-2025 17:38 . Reden: alle AI assistenten i.p.v. alleen code assisitenten ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +1 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 23:59
ocf81 schreef op woensdag 5 maart 2025 @ 11:24:
De laatste paar jaar heeft AI een definitieve indruk achtergelaten op het programmeursvak. Enquêtes laten zien dat AI veelvuldig gebruikt wordt bij het schrijven van code. Veel van deze diensten zijn echter gebaseerd op de cloud, en dat vindt niet iedereen even prettig. Daarom zikjn er ook AI code helpers die op je eigen hardware kunnen draaien. Voorbeelden hiervan zijn o.a.: Ollama i.c.m. Continue, FauxPilot, FireCoder Refact en Tabby.
Ik ben benieuwd of er Tweakers zijn die ervaring hebben met dit soort code assistenten en wat jullie ervaringen zijn.
Hoe bevalt de kwaliteit van de adviezen. Welke hardware gebruik je ervoor? H is de integratie met je IDE?
Tot nu toe is de ervaring wel prima. Zelf gebruik ik Ollama (lokaal) en Open WebUI (Docker) om een ChatGPT-achtige ervaring op mijn eigen machine te draaien. Dat gaat goed, al is het wel iets trager dan de online diensten. Geeft niet, mijn input en output blijft dan in ieder geval op mijn eigen systeem. Voor generatieve AI pak ik phi4, ondersteunt tegenwoordig ook Nederlands.

Vorig jaar heb ik ook in Visual Studio Code aangerommeld met extensies (Continue) die je aan Ollama kunt koppelen, maar ik merk dan toch dat de response net iets te traag is voor functies als auto-complete. Het wachten totdat het model met een aanvulling komt haalt de snelheid uit de workflow. Je kunt Continue ook koppelen aan publieke AI-modellen, maar dat gaat dan voorbij aan het initiële doel (privacy). Nog niet 100% tevreden over dus, en laat het dan ook links liggen (voor nu). :)

Have you tried turning it off and on again?


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
@Gr4mpyC3t Welke GPU heb jij gebruikt om je model te hosten?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 23:59
ocf81 schreef op maandag 10 maart 2025 @ 16:30:
@Gr4mpyC3t Welke GPU heb jij gebruikt om je model te hosten?
Een MacBook Pro M4 Pro met 16 GPU-cores en 48 GB RAM. Het geheugen is gekoppeld met de GPU en de bandbreedte is vrij hoog.

Was je van plan met een losse kaart aan de slag te gaan?

Have you tried turning it off and on again?


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Gr4mpyC3t schreef op maandag 10 maart 2025 @ 16:36:
[...]


Een MacBook Pro M4 Pro met 16 GPU-cores en 48 GB RAM. Het geheugen is gekoppeld met de GPU en de bandbreedte is vrij hoog.

Was je van plan met een losse kaart aan de slag te gaan?
Ja, ik was van plan om een VM te maken in Proxmox en deze dan te voorzien van een GPU.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 19:06
Een tijdje terug gespeeld met ollama icm continue en vscode. 8GB videokaart, dus gespeeld met o.a. qwen2.5-coder:7b. Een vraag om een simpele python/tkinter applicatie te maken, zorgde al voor een berg ongebruikte functies, en calls naar niet bestaande functies etc. Kennis over veel bibliotheken ontbreekt en de autocomplete variant voelde idd laggy en maakte ook veelvuldig gebruik van niet bestaande members.

Reproduceren is nu moeilijk, maar als ik hem iets vergelijkbaars probeer te laten maken. Ging toen om een refactor naar het observer pattern, als ik hem nu vanuit t niets een voorbeeld laat maken, krijg ik een stuk code wat wel draait, maar iig niet doet wat qwen claimt dat het doet:
To ensure that the observers are triggered only when the `name` or `address` attributes actually change, we can use property decorators with setters. These setters will check if the new value is different from the current value and call the `notify` method if they differ.

Here's the updated implementation:

Python:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
from dataclasses import dataclass

# Observer Interface
class Observer:
    def update(self, person):
        pass

# Subject Class
@dataclass
class Person:
    _name: str = None
    _address: str = None
    observers: list[Observer] = None

    def __post_init__(self):
        self.observers = []

    def attach(self, observer: Observer):
        if observer not in self.observers:
            self.observers.append(observer)

    def detach(self, observer: Observer):
        try:
            self.observers.remove(observer)
        except ValueError:
            pass

    def notify(self):
        for observer in self.observers:
            observer.update(self)

    @property
    def name(self):
        return self._name

    @name.setter
    def name(self, value):
        if self._name != value:
            self._name = value
            self.notify()

    @property
    def address(self):
        return self._address

    @address.setter
    def address(self, value):
        if self._address != value:
            self._address = value
            self.notify()


# Concrete Observers
class NameObserver(Observer):
    def update(self, person):
        print(f"Name changed to: {person.name}")

class AddressObserver(Observer):
    def update(self, person):
        print(f"Address changed to: {person.address}")

# Example usage
person = Person()
name_observer = NameObserver()
address_observer = AddressObserver()

person.attach(name_observer)
person.attach(address_observer)

person.name = "John Doe"
person.address = "123 Elm Street"


In this example:
- The `Person` class has private attributes `_name` and `_address`.
- Property decorators (`@property`, `@name.setter`, `@address.setter`) are used to define getters and setters for the public properties `name` and `address`.
- In the setters, the new value is compared with the current value. If they differ, the attribute is updated, and the `notify` method is called.
- The `Observer` interface defines an `update` method that concrete observers must implement.
- `NameObserver` and `AddressObserver` are concrete observers that print a message when their respective attribute is changed.

This ensures that the observers are triggered only when the `name` or `address` attributes actually change.
En dat laatste item gaat het dus mis: `NameObserver` and `AddressObserver` are concrete observers that print a message when their respective attribute is changed. Klopt dus niet. Want voor elke update triggerren beide observers...

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Kan je daar nog wat aan doen door de context window aan te passen o.i.d.?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 23:59
ocf81 schreef op maandag 10 maart 2025 @ 17:48:
Kan je daar nog wat aan doen door de context window aan te passen o.i.d.?
Ja ongetwijfeld, maar daar wordt de code die er uit komt niet beter van denk ik.

Have you tried turning it off and on again?


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 19:06
Conclusies die ik zelf eruit trok zijn vooral:
  • 8gb is te weinig
  • zelfs als de code wel draait/compiled etc, dan nog kan het compleet iets anders doen dan dat zelfs de AI zelf claimt dat het doet.

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ja, ik heb gisteren even gezocht naar wat er op een desktopkaart past, en ik kwam de volgende tabel tegen:
ModelParametersSize in GBDownload
Moondream 21.4B0,829ollama run moondream
Llama 3.21B1,3ollama run llama3.2:1b
Gemma 22B1,6ollama run gemma2:2b
Llama 3.23B2ollama run llama3.2
Phi 4 Mini3.8B2,5ollama run phi4-mini
Code Llama7B3,8ollama run codellama
Llama 2 Uncensored7B3,8ollama run llama2-uncensored
Mistral7B4,1ollama run mistral
Neural Chat7B4,1ollama run neural-chat
Starling7B4,1ollama run starling-lm
LLaVA7B4,5ollama run llava
DeepSeek-R17B4,7ollama run deepseek-r1
Llama 3.18B4,7ollama run llama3.1
Granite-3.28B4,9ollama run granite3.2
Gemma 29B5,5ollama run gemma2
Llama 3.2 Vision11B7,9ollama run llama3.2-vision
Phi 414B9,1ollama run phi4
Gemma 227B16ollama run gemma2:27b
QwQ32B20ollama run qwq
Llama 3.370B43ollama run llama3.3
Llama 3.2 Vision90B55ollama run llama3.2-vision:90b
Llama 3.1405B231ollama run llama3.1:405b
DeepSeek-R1671B404ollama run deepseek-r1:671b


Zoals je ziet passen de meeste modellen wel in 16GB, maar ik weet niet of je dan ook nog andere zaken daar in kwijt moet.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 23:59
ocf81 schreef op dinsdag 11 maart 2025 @ 09:19:
Ja, ik heb gisteren even gezocht naar wat er op een desktopkaart past, en ik kwam de volgende tabel tegen:
ModelParametersSize in GBDownload
Moondream 21.4B0,829ollama run moondream
Llama 3.21B1,3ollama run llama3.2:1b
Gemma 22B1,6ollama run gemma2:2b
Llama 3.23B2ollama run llama3.2
Phi 4 Mini3.8B2,5ollama run phi4-mini
Code Llama7B3,8ollama run codellama
Llama 2 Uncensored7B3,8ollama run llama2-uncensored
Mistral7B4,1ollama run mistral
Neural Chat7B4,1ollama run neural-chat
Starling7B4,1ollama run starling-lm
LLaVA7B4,5ollama run llava
DeepSeek-R17B4,7ollama run deepseek-r1
Llama 3.18B4,7ollama run llama3.1
Granite-3.28B4,9ollama run granite3.2
Gemma 29B5,5ollama run gemma2
Llama 3.2 Vision11B7,9ollama run llama3.2-vision
Phi 414B9,1ollama run phi4
Gemma 227B16ollama run gemma2:27b
QwQ32B20ollama run qwq
Llama 3.370B43ollama run llama3.3
Llama 3.2 Vision90B55ollama run llama3.2-vision:90b
Llama 3.1405B231ollama run llama3.1:405b
DeepSeek-R1671B404ollama run deepseek-r1:671b


Zoals je ziet passen de meeste modellen wel in 16GB, maar ik weet niet of je dan ook nog andere zaken daar in kwijt moet.
En dan nog is RAM natuurlijk niet het enige dat telt voor de berekeningen. Het aantal TOPS dat een NPU aankan speelt ook een rol.

Have you tried turning it off and on again?


Acties:
  • +1 Henk 'm!

  • pkuppens
  • Registratie: Juni 2007
  • Laatst online: 18:07
Gr4mpyC3t schreef op woensdag 5 maart 2025 @ 11:51:
[...]


Tot nu toe is de ervaring wel prima. Zelf gebruik ik Ollama (lokaal) en Open WebUI (Docker) om een ChatGPT-achtige ervaring op mijn eigen machine te draaien. Dat gaat goed, al is het wel iets trager dan de online diensten. Geeft niet, mijn input en output blijft dan in ieder geval op mijn eigen systeem. Voor generatieve AI pak ik phi4, ondersteunt tegenwoordig ook Nederlands.

Vorig jaar heb ik ook in Visual Studio Code aangerommeld met extensies (Continue) die je aan Ollama kunt koppelen, maar ik merk dan toch dat de response net iets te traag is voor functies als auto-complete. Het wachten totdat het model met een aanvulling komt haalt de snelheid uit de workflow. Je kunt Continue ook koppelen aan publieke AI-modellen, maar dat gaat dan voorbij aan het initiële doel (privacy). Nog niet 100% tevreden over dus, en laat het dan ook links liggen (voor nu). :)
Continue ook heel kort gebruikt, maar zit nu alleen maar in de weg van de standaard Code completions.
Heb me er mogelijk niet goed genoeg in verdiept en niet goed geconfigureerd.

Ik weet nog wel de eerste keer dat ik met bolt.new aan het spelen was, ik kon als niet frontender binnen de credits een web app maken die spraak opnam en uitschreef met taal herkenning.
Die hebben ook een publieke variant, bolt.diy, waar ik ook nog wel meer naar wil kijken voor frontend werk.

Ik ben zelf ook wel naar een zelf gehoste code assisten op zoek, maar misschien wel zelf iets maken buiten de IDE om. Ik werk ook aan mijn eigen architectuur/design/code superprompts van 10k+ waar niet alle modellen en code assistents mee om kunnen gaan.

Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het woord superprompt was ik nog niet tegengekomen. Weer wat geleerd. Ik ben ondertussen beland bij stap 2: (2e-hands) hardware aankopen om het op een server werkend te krijgen. Mocht het niet bevallen dan gaat de hardware weer naar V&A en heb ik slechts wat leergeld betaald. Dat is wel te overzien, denk ik.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

Interessant topic. Ik ben zelf al een tijdje aan het rommelen met een oude game-pc die ik omgetoverd heb tot Ollama LLM servertje. Ik heb het volgende opgezet:
  • Ubuntu 24.04 LTS
  • Docker
  • Portainer
  • Watchtower
  • Ollama
  • OpenwebUI
  • AnythingLLM
Dit alles draait op een oude Core i7 met 24 GB DDR3, met een AMD Radeon RX6650XT met 8GB VRAM.

Leuk om mee te experimenten en vooral erg leerzaam om op te zetten. Ik probeer nu om een multi-agent setup te maken. Voornamelijk eerst voor het leerproces, maar als het uiteindelijk werkt wil ik wellicht wel gaan investeren in nieuwe(re) hardware om echt iets fatsoenlijks neer te zetten. (AMD is nou niet bepaald veel gebruikt in local LLM land)
Let wel, tot vorig jaar had ik amper kennis van al deze systemen en van sommige onderdelen weet ik nog steeds maar een fractie, maar het werkt en daar gaat het om. ;)

Ik gebruik bovenstaand niet perse voor coding, maar ik probeer juist een soort van Assistent te bouwen waar ik taken kan offloaden bij het onderzoeken van zaken. Daarnaast zou ik de LLM wel willen koppelen aan HAOS en eventueel als voice-assistant gebruiken om mijn Google Home's te vervangen.

Ik ga dit topic eens volgen om meer praktische informatie op te halen. :)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik ben inmiddels sinds vrijdag aan het stoeien om op een Proxmox VE bak met een Debian VM waar ik Ollama en Open WebUI in heb draaien. Sinds vandaag heb ik middels PCI-e passthrough een RX 7800 XT toegevoegd. Helaas is het nog niet gelukt om Ollama ook op de GPU aan de praat te krijgen. Toen ik Passthrough aan heb gezet heb ik de hele VM opnieuw opgebouwd. Ik zie in de VM met "lspci -v" de GPU in de lijst staan en Ollama gaf tijdens de installatie ook aan dat het AMD gpu zag. Echter draaien de modellen nog steeds voor 100% op de CPU. Iemand een hint waar dat aan kan liggen?

Ollama is geïnstalleerd met het bash script: "curl -fsSL https://ollama.com/install.sh | sh". Zou de docker versie het beter doen?

[edit] toch maar lokaal even Ollama geïnstalleerd, en dan draait ie in één keer op de GPU. Ik doe kennelijk niets niet helemaal goed, of de 7800XT is op de een of andere manier niet zo geschikt voor Ollama?`

[edit2] Toch maar Debian de deur uit gedaan voor de server en, net als op mijn Desktop, OpenSUSE Tumbleweed gebruikt. Het werkt nu als een tierelier *O*

[edit3]Er was toch nog een hobbeltje in de weg: Continue wilde niet babbelen met Ollama op de server. Nu eindelijk alles aan de praat gekregen! Ollama met een GPU op een server, en vervolgens verder in VScodium, vragen beantwoorden en antwoorden geven. Ik had een firewallregel op de server over het hoofd gezien, wat me behoorlijk wat frustratie opleverde. Ik had niet bedacht dat de tests die ik met curl deed eigenlijk naar localhost gingen. 😅 Om eerlijk te zijn, ik ben nog steeds een grote fan van Debian vanwege de eenvoud bij het hosten van servers. Maar het kan ook zijn dat ik er zo gewend ben geraakt dat ik me eigenlijk ongemakkelijk voel om naar iets anders over te stappen.

[ Voor 56% gewijzigd door ocf81 op 31-03-2025 16:18 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
@CSB Wat is AnythingLLM precies? Ik krijg niet zo'n goed idee van wat het nu precies doet als ik de site er op nasla.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • +1 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

ocf81 schreef op maandag 31 maart 2025 @ 15:25:
@CSB Wat is AnythingLLM precies? Ik krijg niet zo'n goed idee van wat het nu precies doet als ik de site er op nasla.
Een frontend / Webinterface voor je LLM experience zoals je bij ChatGPT gewend bent. Daarnaast wordt er voortgeborduurd op "agent-achtige" zaken, zoals Webscraping en dergelijken. Ik vind het een fijnere tool dan OpenwebUI voor het gebruik van Ollama voor "basis uitzoekwerk" zeg maar. Ben me ook nog aan het orienteren op wat nou de juiste tooling moet zijn want het schiet allemaal als paddestoelen uit de grond de laatste tijd. Er is nog niet echt een goeie standaard...

Edit: goed om te lezen dat je je GPU aan de praat hebt. Ik neem aan dat deze Linux distro ondersteuning heeft voor Rocm? In mijn Ubuntu distro zat het een paar maanden terug nog niet, dus baalde al dat ik "de nieuwste" had geinstalleerd.

[ Voor 14% gewijzigd door CSB op 31-03-2025 17:16 ]

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CSB schreef op maandag 31 maart 2025 @ 17:15:
[...]

Een frontend / Webinterface voor je LLM experience zoals je bij ChatGPT gewend bent. Daarnaast wordt er voortgeborduurd op "agent-achtige" zaken, zoals Webscraping en dergelijken. Ik vind het een fijnere tool dan OpenwebUI voor het gebruik van Ollama voor "basis uitzoekwerk" zeg maar. Ben me ook nog aan het orienteren op wat nou de juiste tooling moet zijn want het schiet allemaal als paddestoelen uit de grond de laatste tijd. Er is nog niet echt een goeie standaard...
Voorlopig houd ik het even bij Open WebUI, want dat doet voor nu al genoeg. Ik zit nog in de fase van het spelenderwijs ontdekken, zeg maar :) Net mijn eerste stukjes code gegenereerd om te zien hoe dat in zijn werk gaat.
CSB schreef op maandag 31 maart 2025 @ 17:15:
Edit: goed om te lezen dat je je GPU aan de praat hebt. Ik neem aan dat deze Linux distro ondersteuning heeft voor Rocm? In mijn Ubuntu distro zat het een paar maanden terug nog niet, dus baalde al dat ik "de nieuwste" had geinstalleerd.
Ja, dat was, zoals je kan teruglezen in mijn edits, in eerste instantie nog wel even een probleem. Nadat ik PCI-e passthrough aan de praat kreeg had Ollama toch wat problemen met het gebruiken van de GPU. Toen maar OpenSUSE Tumbleweed erbij gepakt, want met een rollende release is de kans op verouderde software een stuk minder. En toen deed alles het opeens wel. Ollama pakt ROCm er zelf bij, dus daar hoef je eigenlijk verder niet mee te klooien. Maar ik denk dat de kernel van Debian 12 gewoon te oud was waardoor het toch niet werkte met die distro.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

Ik zit nu zelf op het niveau dat ik het boeltje nog wat "slimmer" wil maken. Als ik alles een beetje goed begrijp zou je d.m.v. agents bepaalde zaken kunnen "offloaden" naar een agent, zoals Websearch, scraping, Summarizing, RAG building, etc. Maar HOE je op één systeem het beste zoiets kunt opzetten kan ik zo snel niet terugvinden op het web. Ik dacht iets te lezen over meerdere Ollama instanties in Docker, maar dat lijkt me zeer inefficient. (resource-wise dan) Je zou dan per agent een aparte LLM moeten runnen. Ik hoop dat iemand meeleest die zoiets al heeft draaien en mij op de juiste weg kan helpen. (beetje thread-kapen wat ik nu doe...)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Het slimmer maken door agenten in te richten is de volgende stap, zo lijkt het.
Ik kwam vandaag het volgende filmpje tegen in mijn feed, het lijkt me wel een aardige uitleg van wat dat zou kunnen inhouden:

Maar eigenlijk wordt de term agent dan gekaapt door het LLM volk. Het is eigenlijk een begrip dat veel breder kan worden gezien:

[ Voor 29% gewijzigd door ocf81 op 31-03-2025 22:35 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

Interessant. Ik vond gisteren ook weer wat: "Make ollama can run multiple models parallel" https://github.com/ollama/ollama/issues/9787

Hiermee zou je Ollama meerdere requests parellel aan elkaar moeten kunnen laten draaien op één systeem. Logischerwijs wordt het dan door het systeem gequeued en dus zal de dee query langer duren, maar je kunt wél meerdere taken tegelijk afvuren, waardoor het dus mogelijk zou moeten zijn om meerdere tasks parellel uit te voeren. Voor mijn usecase zou ik al blij zijn met tasks in sequence, zoals bijv. Search topic X, scrape, summarize, commit to memory (RAG) of zoiets.

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Dat is inderdaad best interessant. Ik ben dan wel benieuwd of je dan ook een soort load balancer kan maken om het werk over meerdere machines te verdelen, want anders zit je al heel snel aan die superdure GPU's met veel RAM te kijken. Ik vind de uitvoering: ASRock AMD Radeon RX 7900 XTX Creator 24GB steeds interessanter worden, want met twee van die 48GB aan VRAM per systeem realiseren, en als je daar dan twee systemen van neerzet kan je best interessante dingen doen. Wellicht een beetje duur voor een speeltje, maar wel leuk speelgoed :)

Met continue kan je voor verschillende taken andere modellen aanwijzen. Weet iemand ook of je dat werk kan verdelen over meerdere machines zonder dat dit de werking van continue verstoort?

[ Voor 12% gewijzigd door ocf81 op 01-04-2025 19:48 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

Het jeukt bij mij ook. :p Die 8GB RX6650XT trekt het basic "chat" gebeuren wel maar als je wat meer wilt dan houd het snel op.

Verschillende fabrikanten zijn nu bezig om met NPU mini-pc'tjes in deze markt te springen. Een Mac kan het natuurlijk al een tijdje dankzij het Unified Memory principe. Maar een systeem als dit bijv.:
https://www.hp.com/lameri...rkstations/z2-mini-a.html
is wel interessant, mits de prijs er naar is.

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 19:06
CSB schreef op donderdag 3 april 2025 @ 10:05:
Het jeukt bij mij ook. :p Die 8GB RX6650XT trekt het basic "chat" gebeuren wel maar als je wat meer wilt dan houd het snel op.

Verschillende fabrikanten zijn nu bezig om met NPU mini-pc'tjes in deze markt te springen. Een Mac kan het natuurlijk al een tijdje dankzij het Unified Memory principe. Maar een systeem als dit bijv.:
https://www.hp.com/lameri...rkstations/z2-mini-a.html
is wel interessant, mits de prijs er naar is.
Framework bied de zelfde ryzen ai max aan. Door ze door te verbinden via usb4 heb je een 40gbit netwerkverbinding tussen de machines. 2000 USD voor het 128GB moederbord. Voor een netjes geconfigureerd systeempje kan het tot ~3k per machine oplopen. Voor de komende maanden helaas al uitverkocht.

Afbeeldingslocatie: https://images.prismic.io/frameworkmarketplace/Z7eCQJ7c43Q3gCGb_fwdesktop_family_ml_cluster.jpg

Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik ben inmiddels zo enthousiast dat ik heb besloten om een paar 2e-hands Radeon PRO W6800's te gaan kopen. De eerste is inmiddels aangeschaft. In eerste instantie gaat mijn oude 6800XT als 2e kaart dienen en de 7800XT die ik nu in de AI machine heb zitten gaat dan als GPU in mijn spelmachine dienst doen. Het kost een duit, maar hopelijk is het hosten van 70b modellen dan wel mogelijk en ga je echt significant meer plezier beleven aan de AI host als het om langere chats en grotere contexten gaat.

@NESFreak Dat is inderdaad ook iets wat ik heb overwogen, maar ik schat in dat, hoewel er een flinke sloot relatief snel geheugen op de FW DP borden zit, de Strix Halo APU qua verwerkingskracht tekort gaat schieten om een model dat in het geheugen past op een beetje deftige snelheid te presenteren.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

NESFreak schreef op donderdag 3 april 2025 @ 10:13:
[...]


Framework bied de zelfde ryzen ai max aan. Door ze door te verbinden via usb4 heb je een 40gbit netwerkverbinding tussen de machines. 2000 USD voor het 128GB moederbord. Voor een netjes geconfigureerd systeempje kan het tot ~3k per machine oplopen. Voor de komende maanden helaas al uitverkocht.

[Afbeelding]
Oeh, scalable, dat is iets waar ik nog niet aan gedacht had. Hoeveel stroom trekt zo'n systeem ongeveer? Moet nog wel enigszins rekening houden met de WAF. ;)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • NESFreak
  • Registratie: December 2009
  • Laatst online: 19:06
CSB schreef op donderdag 3 april 2025 @ 11:19:
[...]

Oeh, scalable, dat is iets waar ik nog niet aan gedacht had. Hoeveel stroom trekt zo'n systeem ongeveer? Moet nog wel enigszins rekening houden met de WAF. ;)
https://frame.work/nl/en/desktop?tab=specs

CPU heeft een 140W tdp. Complete systeem komt met een 400W voeding. Benchmarks zijn er nog niet echt. Maar puur op basis van geheugenbandbreedte kom je iets als llama 3.3 70b,q4 (43GB) tot zo'n 6 t/s uit.

[ Voor 4% gewijzigd door NESFreak op 03-04-2025 11:40 ]


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

NESFreak schreef op donderdag 3 april 2025 @ 11:32:
[...]


https://frame.work/nl/en/desktop?tab=specs

CPU heeft een 140W tdp. Complete systeem komt met een 400W voeding. Benchmarks zijn er nog niet echt. Maar puur op basis van geheugenbandbreedte kom je iets als llama 3.3 70b,q4 (43GB) tot zo'n 6 t/s uit.
Dat is redelijk wat power zonder dedicated GPU. Jammer alleen dat bijna al dit soort systemen vast zitten (no pun intended) aan gesoldeerd geheugen voor het Unified memory systeem, waardoor upgraden een kostbaar grapje wordt.
Ik zie ze wel als paddestoelen oppoppen deze systemen, dus ff in de gaten houden. ;)

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb inmiddels een paar dagdelen gespeeld met continue om een nieuwe Arma 3 game mode te maken. Ik moet zeggen dat ik het zeer leuk speelgoed vind! Ik ben super productief en het maakt programmeren ook minder een sleur voor mij.
Maar waar ik wel een beetje tegen aan loop is dat concepten compleet verkeerd begrepen worden. Daarnaast blijft het nog steeds een 'computer' waar je mee praat. Je moet heel precies zijn in je instructies (iedereen die ooit geprogrammeerd heeft begrijpt denk ik wel wat ik daar mee bedoel.)

Als iemand nog tips heeft om daar beter in te worden, dan hoor ik die graag!

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • CSB
  • Registratie: Juli 2003
  • Laatst online: 22-05 11:46

CSB

:D

Ja, alles valt of staat met je prompt begrijp ik van alles wat ik tot nu toe gelezen heb. Ik moet zeggen, hoe meer ik me in de materie verdiep hoe meer ik denk dat het geheel nog LANG niet zover is dat je het een echte A.I. kunt noemen. Goed, het is wel leuk om mee te rommelen maar de ideeën die ik initieel had heb ik maar laten varen, dat is nog te complex om met mijn beperkte kennis en consumer grade hardware uit te voeren.

Met zo'n administrator heb je geen users meer nodig...


Acties:
  • 0 Henk 'm!

  • Gr4mpyC3t
  • Registratie: Juni 2016
  • Laatst online: 23:59
ocf81 schreef op vrijdag 4 april 2025 @ 17:21:
Ik heb inmiddels een paar dagdelen gespeeld met continue om een nieuwe Arma 3 game mode te maken. Ik moet zeggen dat ik het zeer leuk speelgoed vind! Ik ben super productief en het maakt programmeren ook minder een sleur voor mij.
Maar waar ik wel een beetje tegen aan loop is dat concepten compleet verkeerd begrepen worden. Daarnaast blijft het nog steeds een 'computer' waar je mee praat. Je moet heel precies zijn in je instructies (iedereen die ooit geprogrammeerd heeft begrijpt denk ik wel wat ik daar mee bedoel.)

Als iemand nog tips heeft om daar beter in te worden, dan hoor ik die graag!
Heb je al geprobeerd om documentatie mee te sturen in je prompt? In ieder geval GitHub Copilot en ChatGPT gebruiken dit dan als context om code te genereren. Dit werkt voor mij vaak beter dan enkel een prompt. Kan Continue dit ook? :)

En oh ja, subjectieve zaken als 'de code moet veilig zijn' of 'het moet wel mooi zijn' moet je ook zo veel mogelijk vermijden. Klinkt makkelijk, is het stiekem niet.

Have you tried turning it off and on again?


Acties:
  • +1 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Gr4mpyC3t schreef op vrijdag 4 april 2025 @ 22:46:
[...]


Heb je al geprobeerd om documentatie mee te sturen in je prompt? In ieder geval GitHub Copilot en ChatGPT gebruiken dit dan als context om code te genereren. Dit werkt voor mij vaak beter dan enkel een prompt. Kan Continue dit ook? :)

En oh ja, subjectieve zaken als 'de code moet veilig zijn' of 'het moet wel mooi zijn' moet je ook zo veel mogelijk vermijden. Klinkt makkelijk, is het stiekem niet.
Continue leunt op de dienstverlening van derden. In mijn geval dus Ollama en de modellen die ik zelf host. Continue heeft een aantal context providers die je kan specificeren: code, docs, diff, terminal, problems, folder en codebase. Ik heb nog niet van alle soorten provider goed in de gaten wat het precies doet. Tot nu toe heb ik alleen code meegestuurd, dus dat is iets waar ik eens mee aan de slag moet.

Maar ik merk wel dat de modellen uit hun context lopen. Opeens worden er dingen vergeten of verdraaid die eerder in het gesprek wel goed werden begrepen. Het vergroten van de context is iets waar ik naar moet kijken, maar dat ga ik eens onderzoeken als ik straks die W6800 met 32GB aan VRAM in mijn Ollama VM heb zitten.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
CSB schreef op vrijdag 4 april 2025 @ 22:25:
Ja, alles valt of staat met je prompt begrijp ik van alles wat ik tot nu toe gelezen heb. Ik moet zeggen, hoe meer ik me in de materie verdiep hoe meer ik denk dat het geheel nog LANG niet zover is dat je het een echte A.I. kunt noemen. Goed, het is wel leuk om mee te rommelen maar de ideeën die ik initieel had heb ik maar laten varen, dat is nog te complex om met mijn beperkte kennis en consumer grade hardware uit te voeren.
Ik denk dat het glas inmiddels wel half vol zit. Ja, er is nog een lange weg te gaan, maar er wordt nu wel steeds meer mogelijk. Uiteindelijk is het gewoon een nieuwe set vaardigheden die, in mijn geval althans, wel een positieve ervaring heeft opgeleverd.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Ernemmer
  • Registratie: Juli 2009
  • Niet online
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?

Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.

Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?

[ Voor 22% gewijzigd door Ernemmer op 06-04-2025 12:09 ]


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ernemmer schreef op zondag 6 april 2025 @ 12:08:
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?

Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.

Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?
Tja, dat is inderdaad de vraag die ik voor mijzelf probeer te beantwoorden. Ik heb het idee dat met ca. 14b je oppervlakkige, maar vaak, doch niet altijd, redelijk goede antwoorden krijgt. Als je door gaat graven gaat het echter vaak mis. Ik ben nu bezig om de stap naar ca. 70b te maken, in de hoop dat je daar dan echt iets mee kan. Maar dan zit je wel aan minimaal €2000 aan hardware. Ik hoop dat ik die hardware ook weer kwijt kan als het op niks uitloopt, zodat het bij een paar honderd euro aan leergeld blijft, wat ik te overzien vindt.

Hier een vergelijking van een chat die ik had met Llama-3.2 Vision 11b en ChatGPT over twee ontwerpen van een printerkast, waarbij een vriend van mij zijn ChatGPT abonnement voor de vergelijking ter beschikking stelde.

Plaatje 1:
Afbeeldingslocatie: https://rotjes.bangblog.eu/tweakers/gathering/2289892%20-%20AI%20Chatbots/2024-07-24%20printerkast%20right%20front%20top.jpg

Plaatje2:
Afbeeldingslocatie: https://rotjes.bangblog.eu/tweakers/gathering/2289892%20-%20AI%20Chatbots/2025-03-02%20printerkast%20v3%20left%20front%20top.jpg


Chat Llama-3.2 Vision 11b

ChatGPT-4o

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • Pietert
  • Registratie: Januari 2001
  • Niet online

Pietert

There is no spoon

Ben bepaald geen code wizard maar gebruik de tools zoals Bolt.new, Claude, Supabase, Perplexity Pro (gratis voor Ziggo klanten) en anderen voor snelle POC's.

Daar merk ik dat als ik een combinatie maak van tools ik het beste geholpen ben, als ik het met 1 tool probeer op te lossen dan loop ik tegen de beperkingen aan. Wellicht is dat voor alleen code met hulp van AI ook een goede optie om uit te proberen.

Voorbeeld:
Ik gebruik Perplexity om eerst vragen te stellen over hou ik iets op zou lossen. Hier combineer ik eigen context met wat Perplexity Deep Research online kan vinden. Dat zijn wat vragen heen en weer voor aanscherping tot ik denk te hebben wat ik zoek. Daar vraag ik een samenvatting van.
Die samenvatting geef ik mee aan Claude, die vraag ik met mijn context "ik ben een programmeur die etc" plus de samenvatting een goed prompt te schrijven voor Bolt.new of ChatGPT. In Bolt gaat mijn oplossing voor test preview binnen die app maar als ik het live een rondje wil gebruiken en testen dan via Supabase voor een echte backend.

Lang verhaal kort: gebruik meerdere ai tools in een rij voor het beste resultaat en switch modellen gebaseerd op de context die je hebt. Hoop dat het iemand helpt hier!

#huiskamer | Amsterdammert | Some days you're the pigeon, some days you're the statue | Zenbook S13 UM5302TA-LV067W | LG 40WP95CP-W | HP USB-C dock G5


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Heb je ook ervaring met zelf gehoste AI en kan je dan ook aangeven waar jij grote verschillen ziet?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • The-Source
  • Registratie: Augustus 2001
  • Laatst online: 21:56
Ernemmer schreef op zondag 6 april 2025 @ 12:08:
Hoe goed werken deze zelfgehoste oplossingen tov een 20 dollar chatgpt abonnement voor tekst?

Ik heb er laatst iets mee gespeeld maar met 7b modellen kwam er nog flinke onzin uit.
De gratis chatgpt kwam met veel betere teksten.

Moet ik gewoon betere hardware kopen en grotere modellen gebruiken of komt het dan nog niet in de buurt van een betaald abonnement?
Op je eerste vraag, je investering kosten kan je genoeg maanden abonnement nemen en als je echt hele grote modellen te gebruiken gaat het gaat echt in de papieren lopen. Maar thuis heb je een keuze welk model je wilt gebruiken en zo ook of je een ongecensureerde model wilt gebruiken.
En ook niet te vergeten je data blijft lokaal dat vind ik nog het meeste waard.
Ga je met stable-diffusion aan de slag dan heb je ook alle vrijheid en als ik gratis chat-gpt Vergelijk met nu thuis met 3090 en SD dan is de snelheid niet te vergelijken en de kwaliteit van output ook niet ( kost wel nodige vrije uurtje om opzet goed te krijgen ;) )

Taal fouten inbegrepen ;)
Mijn AI Art YouTube kanaal


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ik heb een van de mods gevraagd om de topictitel te veranderen en ik heb vervolgens de OP aangepast. In plaats van puur een focus op code assistenten heb ik de focus enigszins verlegd naar alle zelf gehoste AI assistenten. Moet nog wat uitzoekwerk doen voor het genereren van plaatjes.
Als iemand co-auteur wil worden om een bijdrage te leveren, dan is dat geen probleem.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • i-chat
  • Registratie: Maart 2005
  • Niet online
ik hoor en lees hier vooral heel veel over 3090's 4080's en radeon pro's maar voor nvidia geld toch dat alles met een cuda score van 5.0 of hoger eigenlijk al wel werkt. effectief zou elke 1050 die je 2e hands uit v&a kunt halen dan toch moeten werken.

als ik dan op YT zie dat mensen zelfs al met raspberry pi's aan de slag gaan dan heb ik al helemaal zoiets van uh ok?

het grootste probleem waar ik dan mee zit is hoe zit het nu echt, en in hoeverre zou ik bijvoorbeeld een mining adaptor uitvoering: Delock 41427 kunnen gebruiken om een paar gtx 1050 of intel ark a380s toe te voegen

of mis ik nu iets cruciaals?

[ Voor 23% gewijzigd door i-chat op 16-04-2025 22:50 ]


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Ja, goeie vraag. Ik heb zelf maar twee PCI-e sloten beschikbaar in mijn server en geheugen is toch wel koning, zoals al uitgelegd in review: AI op AMD- en Nvidia-videokaarten - Taalmodellen, upscaling en imageg.... Mijn 2e W6800 is inmiddels besteld.
Mijn vermoeden is dat het inladen van een 27b model best lang gaat duren als je dan 10 1050's met hun 3GB aan VRAM naast elkaar zet en over USB gaat inladen. Ik weet ook niet wat het doet met het verwerken van de context. Kleine modellen die op een RPi gaan draaien lijken me vooral spielerij. Je merkt echt een aanzienlijk verschil als je grotere modellen gaat draaien. Het enige model dat ik nog draai dat kleiner dan 30b is, is Phi4, omdat er geen grotere versie van is. En een GPU is echt koning als het om verwerkingssnelheid gaat.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave


Acties:
  • 0 Henk 'm!

  • ocf81
  • Registratie: April 2000
  • Niet online

ocf81

Gewoon abnormaal ;-)

Topicstarter
Nieuws over een W9000-serie kaart met 32GB: tomshardware.com videocardz.com
Discussie op r/LocalLLaMA

Persoonlijk denk ik dat het aan de prijs zal liggen of deze kaart interessant zal zijn. Zoals al genoemd is de uitvoering: AMD Radeon Pro W7900 waarschijnlijk sneller en heeft die meer geheugen aan boord, maar deze kost een lieve duit.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | <X> as a Service --> making you a poor & dependent slave

Pagina: 1