ComfyUI? Wat is dat? Dikke kans dat je dat denkt, maar ook dat dat de komende jaren vrij snel gaat veranderen. ComfyUI is een gratis, opensource, zeer geavanceerde tool gericht op het met zoveel mogelijk eigen vrijheid instellen van AI modellen om afbeeldingen, video en/of geluid te produceren. ComfyUI is nodebased, wat simpel gezegd betekent dat het een grafische interface is om stukken pythoncode (de 'nodes') aan elkaar te verbinden. Het lijkt bij de eerste keer opstarten een zeer complex programma, omdat het dat ook is en je zoveer controle en details bij AI generatie kan toevoegen als je maar wil. Maar... wie even rustig verder klikt ziet dat de basis eigenlijk heel simpel is en eigenlijk iedereen binnen een kwartier zijn eigen afbeelding of geluid kan produceren. Het programma is dus een goed voorbeeld van easy to learn, hard to master.
Even een teaser om je te laten schrikken, zo ziet het eruit

Dat lijkt een stuk enger dan het is, dus ik neem je even mee!
Een groffe tabel met een tip om makkelijk en snel te starten met minimale hardware-eisen:
Zoals je ziet staat er steeds het nummertje Q4 of (NV)FP4 achter, en ook een nummer 4B en 1.5B. Beide betekenen iets anders.
xB = hoeveel miljard parameters (getrainde verbindingen) een model heeft. Hoe hoger, hoe beter. 3B, 4B en 7B zijn vrij gangbare kleine modellen die goed lokaal te draaien zijn. De meest complexe modellen die op consumentenhardware draaien zijn zo'n 27B-35B groot. Voor de beeldvorming; een bekend opensourcemodel als Deepseek V3 gaat zelfs tot 385B grootte
Qx / (nv)fpx = Naast het aantal parameters is elk model ook in verschillende kwantisaties (x). Hoe kleiner de x, hoe kleiner het model. Een volledig model is FP16 of BF16, maar er worden ook gekwantiseerde varianten uitgebracht die kleiner zijn door compressie en toch goede kwaliteit leveren. Soms doen de makers dat zelf, maar ook veel vrijwilligers plaatsen op sites als HuggingFace kleinere zelf gebouwde versies van opensource modellen. Q4 of fp4 is vaak relatief al best goed, maar wel flink kleiner dan het basis FP16 model en de keus waarvoor je gaat.
Soms kom je nvfp4 tegen, dit is een specifiek voor nvidia geoptimaliseerd bestandsformaat en draait op met name RTX 50xx series een stuk sneller. Ook zie je soms het mlx formaat, dat is een model dat specifiek draait op Apple M processors.
Deze mix samen bepaalt hoe groot het model is in gigabytes. En dat is belangrijk; heb je een 12GB videokaart, dan wil je een model dat in ieder geval niet groter is dan 12GB (met wat marge is 10 vaak al de grens). Ga je er overheen, dan gaat je pc delen van de AI klus in comfyUI offloaden naar het ramgeheugen en ga je al snel 20x langzamer genereren.
Vuistregel; begin met een (nv)fp/q4 model met zoveel mogelijk miljoen parameters dat voor 75% in je vram past. Bijv: Flux Klein 4B nvfp4 is 4 gb groot en past dus keurig in een gpu van 8 gb, dus is een mooi model om te starten met afbeeldingen maken op zo ongeveer elke GPU!
Een hele goede, maar ook zéér uitgebreide handleiding vind je op het kanaal van Pixorama. Die zijn super uitgebreid en vaak langer dan nodig, maar daardoor wel echt heel handig om voor jouw specifieke model / klus. Alles wat je maar wil doen (video, afbeelding, muziek etc): van alles stana wel goede tutorials op het kanaal en ook wordt het zelf verder optimaliseren gedetailleerd uitgelegd. De basiscursus duurt 'maar' 5 uur:Voor nu even genoeg, ik zal het binnenkort meer gaan uitwerken en waar nodig actualiseren; ik zou zeggen: probeer Comfy eens uit! Alvast veel plezier en stel gerust vragen of help elkaar hier verder
Even een teaser om je te laten schrikken, zo ziet het eruit

Dat lijkt een stuk enger dan het is, dus ik neem je even mee!
Wat zijn de mogelijkheden?
ComfyUI is begonnen als tool om niet-programmeurs in staat te stellen met lokale AI modellen aan de slag te kunnen gaan met het genereren van eigenlijk alle andere dingen dan tekst. De bekende Copilot/ChatGPT/Gemini chatbot die je in de cloud gebruikt is feitelijk een alles-in-één model, wet technisch gezien ook wel een multimodaal model genoemd wordt: je kan er tekst, plaatjes, filmpjes en geluid mee produceren (hoewel met name die laatste 2 om energieredenen & kosten begrensd worden). Maar als je dat lokaal wil draaien was dat zeker in de begintijd veel te complex voor pc's en ontstonden eerst unimodale modellen die alleen zeer goed waren in één ding genereren. En wel het meest simpele; taal. Diverse tools die daar geschikt voor zijn kun je hier vinden. Maar met de komst van meer krachtige hardware en de doorontwikkeling en training van AI modellen, ontstonden ook AI modellen die zich specialiseerden in de meer complexe taken. ComfyUI is een zeer flexibele tool die je in staat stelt zelf deze modellen in te regelen in een grafische canvas interface zodat je zonder programmeerkennis eigenlijk een soort 'programma'tje' bouwt voor de specifieke AI output die jij wil. De mogelijkheden zijn:- afbeeldingen genereren
- video's genereren
- muziek genereren
- 3D modellen
- spraak genereren
Benodigdheden voor lokaal genereren met ComfyUI
Wil je lokaal aan de slag, dan is wat je aan hardware nodig hebt afhankelijk van de complexiteit van de taak. Dat loopt van relatief goed te doen en lage hardware-eisen (afbeeldingen) via spraak genereren (iets lastiger) en muziek of 3D modellen genereren (wordt al intensiever) naar zeer complex met forse hardware-investeringen (video).Een groffe tabel met een tip om makkelijk en snel te starten met minimale hardware-eisen:
| Taak | Minimale GPU | Interessant model om mee te starten |
|---|---|---|
| Afbeeldingen | 8 GB VRAM | Flux 2 Klein 4B distilled of SDXL-light 4B Q4 |
| Video's | 16 GB VRAM | LTX 2.3 nvfp4; Wan 2.2 14B GGUF BF4 |
| Muziek | 4 GB VRAM | ACE-Step 1.5; Q4 |
| 3D modellen | 10 GB VRAM | Hunyuan3D 2.1; W4 |
| Spraak | 6 GB VRAM | VibeVoice-1.5B Q4 |
xB = hoeveel miljard parameters (getrainde verbindingen) een model heeft. Hoe hoger, hoe beter. 3B, 4B en 7B zijn vrij gangbare kleine modellen die goed lokaal te draaien zijn. De meest complexe modellen die op consumentenhardware draaien zijn zo'n 27B-35B groot. Voor de beeldvorming; een bekend opensourcemodel als Deepseek V3 gaat zelfs tot 385B grootte
Qx / (nv)fpx = Naast het aantal parameters is elk model ook in verschillende kwantisaties (x). Hoe kleiner de x, hoe kleiner het model. Een volledig model is FP16 of BF16, maar er worden ook gekwantiseerde varianten uitgebracht die kleiner zijn door compressie en toch goede kwaliteit leveren. Soms doen de makers dat zelf, maar ook veel vrijwilligers plaatsen op sites als HuggingFace kleinere zelf gebouwde versies van opensource modellen. Q4 of fp4 is vaak relatief al best goed, maar wel flink kleiner dan het basis FP16 model en de keus waarvoor je gaat.
Soms kom je nvfp4 tegen, dit is een specifiek voor nvidia geoptimaliseerd bestandsformaat en draait op met name RTX 50xx series een stuk sneller. Ook zie je soms het mlx formaat, dat is een model dat specifiek draait op Apple M processors.
Deze mix samen bepaalt hoe groot het model is in gigabytes. En dat is belangrijk; heb je een 12GB videokaart, dan wil je een model dat in ieder geval niet groter is dan 12GB (met wat marge is 10 vaak al de grens). Ga je er overheen, dan gaat je pc delen van de AI klus in comfyUI offloaden naar het ramgeheugen en ga je al snel 20x langzamer genereren.
Vuistregel; begin met een (nv)fp/q4 model met zoveel mogelijk miljoen parameters dat voor 75% in je vram past. Bijv: Flux Klein 4B nvfp4 is 4 gb groot en past dus keurig in een gpu van 8 gb, dus is een mooi model om te starten met afbeeldingen maken op zo ongeveer elke GPU!
Een makkelijke start
Oei! Dat klinkt complex hierboven! Ja dat klopt, maar is handig voor wie iets meer wil snappen. Gelukkig is heel simpel starten ook weer écht overzichtelijk- Download comfyUI als Desktop variant vanaf www.comfy.org (de officiële site). Pas op dat er veel nepwebsites rondom de comfyUI naam op google te vinden zijn.
- Via Youtube kom je echt heel ver met de tutorials. Ik raad aan om hier te beginnen:
Een hele goede, maar ook zéér uitgebreide handleiding vind je op het kanaal van Pixorama. Die zijn super uitgebreid en vaak langer dan nodig, maar daardoor wel echt heel handig om voor jouw specifieke model / klus. Alles wat je maar wil doen (video, afbeelding, muziek etc): van alles stana wel goede tutorials op het kanaal en ook wordt het zelf verder optimaliseren gedetailleerd uitgelegd. De basiscursus duurt 'maar' 5 uur:Voor nu even genoeg, ik zal het binnenkort meer gaan uitwerken en waar nodig actualiseren; ik zou zeggen: probeer Comfy eens uit! Alvast veel plezier en stel gerust vragen of help elkaar hier verder