Bestaan er al (fatsoenlijke) PCIe NPUs/AI accelerators?

dinsdag 1 oktober 2024 09:31

Acties:

Topicstarter

Aangezien AI de laatste tijd steeds populairder aan het worden is, was ik benieuwd of er al dedicated kaarten hievoor beschikbaar zijn. De meestse mensen gebruiken hier gewoon hun GPU voor, alleen hierbij is het gebrek aan VRAM vaak een groot probleem.

Natuurlijk is het logisch dat GPUs niet met grotere hoeveelheden VRAM komen, dus vroeg ik mij af of hier misschien een middle ground tussen is: een minder snelle processor specifiek voor AI, met meer maar minder snel geheugen. Vergelijkbaar aan de NPUs die bijvoorbeeld in de Intel Core Ultra of Snapragon X laptops CPU's zitten, maar dan voor PC.

Aangezien deze vraag meer theoretisch is, heb ik niet echt een bepaald budget om hieraan uit te geven. Ik heb gezien dat er bijvoorbeeld voor de Raspberry PI voor een paar tientjes al zo een kaart te krijgen is, maar ben meer op zoek naar eentje die iets krachtiger is.

Enig inzicht op andere mogelijke alternatieven die niet zo duur en stroomvretend zijn als GPUs zijn ook welkom

Alvast bedankt.

dinsdag 1 oktober 2024 12:13

Acties:

heuveltje

KoelkastFilosoof

Denk niet dat je er iets in gaat vinden. in Principe kun je elke gpu daarvoor gebruiken, hoe sneller hoe duurder.
Nvidia is de grootste leverancier, en die levert ook specifiek op AI gerichte kaarten, alleen die zijn bepaald niet goedkoper dan een normale GPU

[ Voor 21% gewijzigd door heuveltje op 01-10-2024 12:14 ]

Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d

dinsdag 1 oktober 2024 12:18

Acties:

Scribe

Topicstarter

heuveltje schreef op dinsdag 1 oktober 2024 @ 12:13:
Denk niet dat je er iets in gaat vinden. in Principe kun je elke gpu daarvoor gebruiken, hoe sneller hoe duurder.
Nvidia is de grootste leverancier, en die levert ook specifiek op AI gerichte kaarten, alleen die zijn bepaald niet goedkoper dan een normale GPU

Nee de prijs issue is mijn grootste probleem... Datacenter kaarten zijn leuk maar ver boven mijn budget

Voor hoever ik weet is de memory hier vaak het grooste probleem, zou het misschien mogelijk zijn om je CPU op High Bandwidth Memory aan te sluiten? Ik denk dat het antwoord nee is, maar als software developer weet ik hier niet veel vanaf

dinsdag 1 oktober 2024 15:39

Acties:

ocf81

Gewoon abnormaal ;-)

Wat wil je er op draaien? Ik denk dat het model dat je wil draaien een groot effect heeft op welke NPU geschikt zou kunnen zijn.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!

dinsdag 1 oktober 2024 15:42

Acties:

Scribe

Topicstarter

ocf81 schreef op dinsdag 1 oktober 2024 @ 15:39:
Wat wil je er op draaien? Ik denk dat het model dat je wil draaien een groot effect heeft op welke NPU geschikt zou kunnen zijn.

Mijn plan was om dit te gebruiken om een lokale LLM te draaien, vandaar de RAM problemen...
Als je bij hogere parameteraantallen komt wordt de benodigde VRAM met een GPU bijna onmogelijk...

Snelheid is voor mij minder belangrijk dan capaciteit, kan in principe ook gewoon RAM + CPU gebruiken maar dat is tergend langzaam

Voor hoever ik weet heeft dat te maken met het feit dat normale RAM lagere bandwidth heeft.

dinsdag 1 oktober 2024 15:45

Acties:

ocf81

Gewoon abnormaal ;-)

Dan vallen de Coral producten dus af en zal je al snel op wat professionelere producten uitkomen, met een navenant prijskaartje...

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!

dinsdag 1 oktober 2024 16:30

Acties:

Scribe

Topicstarter

Erg jammer, maar viel eigenlijk wel te verwachten...

Is er misschien wel een mogelijkheid om geheugen met hogere bandwidth aan een CPU te koppelen?
Zou je niet met meer memory channels hogere snelheden kunnen krijgen? Weet alleen niet of enige moderne CPUs/moederborden dat supporten

dinsdag 1 oktober 2024 16:37

Acties:

ocf81

Gewoon abnormaal ;-)

Scribe schreef op dinsdag 1 oktober 2024 @ 16:30:
Erg jammer, maar viel eigenlijk wel te verwachten...

Is er misschien wel een mogelijkheid om geheugen met hogere bandwidth aan een CPU te koppelen?
Zou je niet met meer memory channels hogere snelheden kunnen krijgen? Weet alleen niet of enige moderne CPUs/moederborden dat supporten

Bepaalde serverhardware kan dat wel, maar dan zit je gelijk aan een prijskaartje van €5000 of meer. Is dat wat je er voor over hebt?

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!

dinsdag 1 oktober 2024 16:40

Acties:

Scribe

Topicstarter

ocf81 schreef op dinsdag 1 oktober 2024 @ 16:37:
[...]

Bepaalde serverhardware kan dat wel, maar dan zit je gelijk aan een prijskaartje van €5000 of meer. Is dat wat je er voor over hebt?

Dat zeker niet

Jammer maar helaas dan, nog bedankt voor de hulp

dinsdag 1 oktober 2024 16:40

Acties:

ocf81

Gewoon abnormaal ;-)

Oops, het is zelfs meer dan dat -> pricewatch begint bij de 10k: serie: Xeon Max

[ Voor 28% gewijzigd door ocf81 op 01-10-2024 16:41 ]

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!

donderdag 10 oktober 2024 08:33

Acties:

Rob vd Hoeven

Ook zonder GPU/NPU is het mogelijk om lokaal met AI te spelen. Mijn systeem heeft een AMD Ryzen 7 7735HS processor met integrated GPU en 32 GB geheugen. Niets bijzonders dus. Toch kan ik vrij vlotjes met ollama diverse AI modellen draaien. Hierbij wordt enkel van de CPU gebruikt gemaakt. Als front-end maak ik gebruik van Open WebUI. OpenWebUI lijkt op ChatGPT. Ook heb ik wat gespeeld met image generation via ComFyUI (tip: ComfyUI full tutorial 2024). Hierbij is het wel handig om een NPU/GPU te hebben want een 512*512 plaatje genereren kost ongeveer 3 minuten..

[ Voor 6% gewijzigd door Rob vd Hoeven op 10-10-2024 08:41 ]

donderdag 10 oktober 2024 08:36

Acties:

Scribe

Topicstarter

Rob vd Hoeven schreef op donderdag 10 oktober 2024 @ 08:33:
Ook zonder GPU/NPU is het mogelijk om met lokaal met AI te spelen. Mijn systeem heeft een AMD Ryzen 7 7735HS processor met integrated GPU en 32 GB geheugen. Niets bijzonders dus. Toch kan ik vrij vlotjes met ollama diverse AI modellen draaien. Hierbij wordt enkel van de CPU gebruikt gemaakt. Als front-end maak ik gebruik van Open WebUI. OpenWebUI lijkt op ChatGPT. Ook heb ik wat gespeeld met image generation via ComFyUI. Hierbij is het wel handig om een NPU/GPU te hebben want een 512*512 plaatje genereren kost ongeveer 3 minuten..

Heb zelf een vrij redelijke GPU dus zelfs image models zijn nog wel te doen

De grote issue hierbij blijft helaas wel model size... Wanneer je begint te offloaden naar CPU/RAM merk je dat performance dramatisch daalt

woensdag 26 februari 2025 10:46

Acties:

ocf81

Gewoon abnormaal ;-)

@Scribe wellicht ben je te porren voor de Framework desktop die gisteren is aangekondigd? Zal voor trainen wellicht niet super interessant zijn, maar voor inferencing zeker wel.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!

woensdag 26 februari 2025 13:20

Acties:

Scribe

Topicstarter

ocf81 schreef op woensdag 26 februari 2025 @ 10:46:
@Scribe wellicht ben je te porren voor de Framework desktop die gisteren is aangekondigd? Zal voor trainen wellicht niet super interessant zijn, maar voor inferencing zeker wel.

Niet iets wat ik zelf aan zou schaffen, maar komt wel inderdaad in de buurt van wat ik mij voorstelde!
RAM bandwidth hier is nog steeds een dingetje, maar projecten zoals de Framework desktop en ook Nvidia's DIGITS zijn wel zeer efficiënt voor low-cost interference.

Grooste probleem hier is denk ik nog steeds dat "goedkope" interference boven de €1000 begint

woensdag 26 februari 2025 13:55

Acties:

ocf81

Gewoon abnormaal ;-)

Scribe schreef op woensdag 26 februari 2025 @ 13:20:
[...]

Niet iets wat ik zelf aan zou schaffen, maar komt wel inderdaad in de buurt van wat ik mij voorstelde!
RAM bandwidth hier is nog steeds een dingetje, maar projecten zoals de Framework desktop en ook Nvidia's DIGITS zijn wel zeer efficiënt voor low-cost interference.

Grooste probleem hier is denk ik nog steeds dat "goedkope" interference boven de €1000 begint

Een 5090 met 32GB VRAM is ca 30% duurder, dus je zal sowieso €2000 of meer uit moeten geven om ergens te komen. Een alternatief is wellicht dat je met 2^e-hands spul een gedistribueerd netwerk opzet om zo voor relatief weinig geld iets te doen, maar dan zijn er wel weer kosten op het gebied van elektriciteit etc. En nu AI zo veel de aandacht vangt zou het ook kunnen zijn dat 2^e-hands spul wellicht ook wel relatief zwak presteert, maar daar weet ik het fijne niet van.

En laten we wel wezen, €1000 is niet meer wat het niet al te lang geleden nog was. Inflatie heeft er flink op ingehakt.

© ocf81 1981-infinity
Live the dream! | Politiek Incorrecte Klootzak uitgerust met The Drive to Survive
Bestrijd de plaag die woke heet! | Servitisatie plaveit de weg naar slavernij. Kies je eigen weg!

zondag 2 maart 2025 13:47

Acties:

SG

SG surft naar info hardewaren

Een gpgpu heb je veel die space logic wat niet relevant is voor AI. Een chip met wat manager IO cores en dan vooral veel AI cores. Dus ARM front end met hoop tensor cores zou efficiënter zijn kwa vermogen. Naast dat zo een NPU in 700mm2 enorm krachtig zou zijn in tops en dan met 128GB HBM memory.
Een 300mm2 zou ook beest zijn.

Nu ben ook wel geïnteresseerd in AI LM inference en gezien dat windows en andere grote AI achter paywall komen. Is platform dat veel UMA ram en stevige igpu heeft. Dus Mac studio M4-max lijkt mij wel wat 48GB.
Nvidia digits is dan meer pure AI tegen hanger. Maar ja MAC studio kan nog gebruiken voor Mac gaming en dev bak en video editor en muziek workstation. Hopelijk in maart Juni.
Heb geen M-soc nog intel mac mini. Misschien 1st wat stoeien met mijn ouwe 1850x Threadripper. Zit Vega56 in 4GB heb niet veel aan.
Is misschien wel gat in de markt. Een Epyc of Threadripper AI met paar npu chiplets en on Soc memory

Onderwerpen