AI selfhosted: how low can you go

vrijdag 7 maart 2025 10:09

Acties:

Topicstarter

ik kreeg recent een video in mijn feed die me aan het denken bracht.

in die video liet iemand zien hoe je openAI of Ollama kon gebruiken als converstation agent in HomeAsistant. natuurlijk worden er in dat soort video's altijd de beste cpu's en de dikste videokaarten gebruikt maar als ik iets verder kijk dan dat, zie ik op verschillende site dat ollama al draagt op nvidia kaarten met een rating 5 (een 1050 voldoet dan al volgens de docs. en als je heel erg op het randje gaat zouden gtx950's hoger ook werken

localAI beweert zelfs dat ze 'NOG' lager kunnen want naast cuda (nvidia) en amd's ROCm zou het ook werken op intel igp's (sycl)

mijn belangrijkste vraag is dan ook of er mensen zijn die hier al mee geexperimenteerd hebben.

mijn uiteindelijke doel is om een goedkope (waarschijnlijk 2e hands) grafische kaart aan te schaffen die ik middels een pcie_x1 riser in mijn homeserver wil hangen en die uiteindelijk een lokale asistent moet vormen die antwoord kan geven eenvoudige vragen als: heb ik nog mail, en van wie; wat wordt het weer morgen; doe het licht uit, zet de kachel aan en zet de tv wat zachter.

de meeste van deze dingen worden naar ik heb begrepen al door intent plugins in home assistent ondersteunt dus ik hoop vooral met een zo basic mogelijke opstelling en een zou zuinig mogelijke gpu af te kunnen.

de reden dat ik niet helemaal afzie van AI is omdat er in dit huishouden mensen zijn die nu ook al mooite hebben met de vorm-specifieke commando's van google of beter gezegd: ik wil een asistent die nét wel snapt dat 'he comptuter maak de lichten uit' in intent hetzelfde is als hé computer wil je de lampen beneden uitzetten of he computer zet alle lampen in de woonkamer en de keuken uit

waar ik vooral benieuwd naar ben zijn ervaringen zowel goede als slechte van mensen die hebben geprobeerd om selfhosted AI te draaien op oudere of budget hardware. en dan vooral op kaartjes zoals een 1050 met 2 of 4gb of vergelijkbare kaartjes van amd en/of intel. al dan niet in vergelijking met het draaien op de cpu.

vrijdag 7 maart 2025 10:15

Acties:

Jacco_vdP

Heb hier toevallig recent mee geëxperimenteerd, omdat ik ook een lokale LLM wilde draaien voor Home Assistant. Mijn pogingen waren met een 3080 10GB en het viel me enorm tegen. Uiteindelijk ben ik uitgekomen op de integration Extended OpenAI Conversation, en die gebruikt nu simpelweg ChatGPT 4o mini bij OpenAI.

Mijn conclusie is een beetje dat ik voor de kosten die ik maak bij OpenAI voor deze setup absoluut geen videokaart kan kopen die qua prestaties ook maar een beetje in ds buurt komt.

vrijdag 7 maart 2025 10:31

Acties:

Killah_Priest

Ollama draait zelfs op mijn laptop met een 4060 (en dan één die maar max 50W kan trekken) prima met de kleinere modellen.
De grotere modellen heb ik nog niet geprobeerd.

vrijdag 7 maart 2025 10:37

Acties:

martin_v_z

Je kan modellen zelfs op cpu draaien. Je laadt het model dan in ram geheugen in. Het probleem van ram geheugen is alleen dat het veel trager werkt dan vram. Ik heb nu ollama via cpu draaien op mijn laptop. Werkt prima zolang je kleine modellen draait. Hoe kleiner het model hoe sneller normaal gesproken. Een 1.5b model draait met een prima werkbare snelheid. Een model van 7b draait nog wel werkbaar indien je prompts vraagt waarbij je het niet erg vindt om een minuut of 2 te wachten op antwoord. Alles daarboven is te traag.

Ik zou zeggen installeer ollama en probeer het gewoon uit of de snelheid en kwaliteit voldoet aan de eisen die je hebt.

vrijdag 7 maart 2025 10:55

Acties:

ElCondor

Geluk is Onmisbaar

martin_v_z schreef op vrijdag 7 maart 2025 @ 10:37:
Je kan modellen zelfs op cpu draaien. Je laadt het model dan in ram geheugen in. Het probleem van ram geheugen is alleen dat het veel trager werkt dan vram. Ik heb nu ollama via cpu draaien op mijn laptop. Werkt prima zolang je kleine modellen draait. Hoe kleiner het model hoe sneller normaal gesproken. Een 1.5b model draait met een prima werkbare snelheid. Een model van 7b draait nog wel werkbaar indien je prompts vraagt waarbij je het niet erg vindt om een minuut of 2 te wachten op antwoord. Alles daarboven is te traag.

Ik zou zeggen installeer ollama en probeer het gewoon uit of de snelheid en kwaliteit voldoet aan de eisen die je hebt.

Kijkend naar de hier genoemde use-case voor HA, denk ik dat zelfs meer dan een minuut veels te lang wachten is.
Als je een commando aan HA geeft, dan verwacht ik near instant reactie. Of ben ik dan te verwend?

Hay 365 dias en un año y 366 occasiones para festejar (Boliviaans spreekwoord)

vrijdag 7 maart 2025 11:30

Acties:

martin_v_z

ElCondor schreef op vrijdag 7 maart 2025 @ 10:55:
[...]

Kijkend naar de hier genoemde use-case voor HA, denk ik dat zelfs meer dan een minuut veels te lang wachten is.
Als je een commando aan HA geeft, dan verwacht ik near instant reactie. Of ben ik dan te verwend?

Eens, een 7b model draaien voor dat doeleind zal veel te zwaar zijn. Maar een 1.5b model werkt een stuk sneller. Of het werkbaar is voor zijn doeleinde weet ik niet, daarom ook het advies om het gewoon uit te proberen. Kwestie van ollama installeren, een klein model uitzoeken en testen. Er zijn zelfs nog kleinere modellen beschikbaar van bijvoorbeeld 0.7b. de vraag is vooral of het resultaat wat daar uit komt goed genoeg is.

vrijdag 7 maart 2025 11:30

Acties:

GarBaGe

als je dit op je videokaart draait, zou ik een AI model kiezen wat fysiek past in de VRAM van je videokaart

Ryzen9 5900X; 16GB DDR4-3200 ; RTX-4080S ; 7TB SSD

Vraag

Alle reacties