LLM normaal Nederlands laten reageren.

zaterdag 25 april 2026 11:20

Acties:

Topicstarter

Mijn vraag:
Hoe maak ik een taalmodel beter reagerend in het Nederlands?
Is Nederlands wel goed te doen of beter volledig op Engels overgaan?
Moet ik stug doorgaan met corrigeren voor het lerend deel?

Relevante software en hardware die ik gebruik:
Alles gewist en begin geheel opnieuw.

#	Categorie	Product	Prijs	Subtotaal
1	Processors	AMD Ryzen 9 9900X3D Boxed	€ 524,99	€ 524,99
1	Moederborden	MSI MAG X870 TOMAHAWK WIFI	€ 279,-	€ 279,-
1	Videokaarten	Zotac Gaming GeForce RTX 5070 Ti SOLID SFF OC	€ 1.015,79	€ 1.015,79
1	Geluidskaarten	Creative Labs Sound BlasterX AE-5 Plus	€ 114,95	€ 114,95
1	Behuizingen	be quiet! Pure Base 500 Wit	€ 59,95	€ 59,95
1	Monitors	Samsung S49DG912S Zilver	€ 759,-	€ 759,-
1	Processorkoeling	Thermalright Peerless Assassin 120 SE	€ 38,90	€ 38,90
3	Case fans	be quiet! Pure Wings 3 140mm, 140mm	€ 11,95	€ 35,85
1	Toetsenborden	Logitech MK295 Silent Wireless Combo (Qwerty US) Wit	€ 40,84	€ 40,84
1	Muizen	Trust Ozaa+	€ 32,90	€ 32,90
1	Geheugen intern	G.Skill Flare X5 F5-6000J2836G32GX2-FX5	€ 939,-	€ 939,-
1	Voedingen	Corsair HX1200i ATX 3.1	€ 235,86	€ 235,86
1	Interne ssd's	Samsung 990 EVO Plus 4TB	€ 489,-	€ 489,-
1	Interne ssd's	Samsung 9100 Pro, geen heatsink 1TB	€ 209,-	€ 209,-
Bekijk collectie Importeer producten			Totaal	€ 5.375,02

Wat ik al gevonden of geprobeerd heb:
- Ollama met vele taalmodellen (geen specifieke Nederlandse modellen).
- Prompt gedreven basis gedrag. (ook met jailbraiks, wat goed helpt)

- PostgrSQL met 3 laags geheugen:
1. Korte termijn chats (40 max)
2. Middel termijn (Samenvattingen van chats, projecten, over de dag van alle chats)
3. Vaste feiten, voorkeuren, relaties en etc.

- Zelf "lerend" door confidense met timestamps.
- Vele variaties op Temp. Top_p, Num_pred, repeat_pen en num_ctx.
- Rol keuze op basis van vraag (bepaald welk model reageert)
- Prompt variaties tussen: je mag nooit, je moet, je bent, de gebruiker wil graag (en combinaties onderling).
- Uitgebreide few-shot promting (voorbeelden van hoe het kan reageren)

Conclusie
Het systeem van zichzelf werkt prima, maar de Nederlandse antwoorden blijven heel slecht. Je ziet harde vertaling van Engelse zinnen en daardoor ook combinaties van onlogisch woord gebruik. Ondanks het zelflerend gedeelte, waar ik kan aangeven dat de zin niet klopt (wat het wel oppakt en meeneemt), blijft er een eindeloze stroom van nieuwe rare zinnen komen in het geheel. Alleen met een heel laag num_pred gaat het nog redelijk, maar dat is niet gewenst voor mijn doel (Dagelijkse chat partner met groot geheugen over tijd en chats heen).

Mijn vraag:
Hoe maak ik een taalmodel beter reagerend in het Nederlands?
Is Nederlands wel goed te doen of beter volledig op Engels overgaan?
Moet ik stug doorgaan met corrigeren voor het lerend deel?

Bij voorbaat dank.

[ Voor 53% gewijzigd door Basic2me op 25-04-2026 11:39 ]

zaterdag 25 april 2026 11:27

Acties:

eLScha

Ollama doet vermoeden dat je lokaal aan de gang bent? Qwen 3.5 en Gemma 4 doen hier best goed Nederlands.

zaterdag 25 april 2026 11:33

Acties:

Basic2me

Topicstarter

Klopt, het is lokaal.

- Qwen 3,5 blijkt tot nu toe de beste te zijn (Puur GPU 16gb), maar blijf vreemde onzin houden. Gemma 4 bleek niet veel beter of slechter voor dagelijkse praat.
- Voor code gebruik ik DeepSeek 33B Next (GPU - CPU), wat perfect is en bewust Engels (op absurd zware taken een keer 10 minuten bezig, en spit dan mijn systeem geheel door en schrijft zelf ook).

[ Voor 16% gewijzigd door Basic2me op 25-04-2026 11:38 ]

zaterdag 25 april 2026 11:48

Acties:

Merethil

Taalmodellen zullen veelal meer Engels dan Nederlands doorgespit hebben tijdens het trainen, en alles wat je lokaal draait is in zoverre kleiner dat er een hoop minder "kennis" van het Nederlands in zal zitten dan bij grotere modellen; o.a. omdat het verkleinen alles behalve Engels zal hebben geminimaliseerd.

Heb je voorbeelden waarin het misgaat? Ik gok dat het veelal te maken zal hebben met vertalingen die aardig letterlijk gebeuren. Een puur Nederlands taalmodel is misschien beter te gebruiken voor je exacte doeleinden maar ik heb geen idee of er daar veel van zijn.

Hier heb je wel wat benchmarks over wat het best werkt met Nederlands: https://www.reddit.com/r/...dellen_llms_in_het/?tl=en

[ Voor 13% gewijzigd door Merethil op 25-04-2026 11:50 ]

zaterdag 25 april 2026 11:51

Acties:

Basic2me

Topicstarter

Het is letterlijke vertaling waar veel mis gaat.

Ik voel mij onder het weer.
Het maakt zin.
Ik houd je gepost.
Breek een been!
Stuk van cake.

Bedankt, ik zal de benchmarks even doorlezen en verder uitpluizen, daar heb ik niet naar gekeken.

Edit:
Hartelijk dank voor de link en ben er zeer blij mee!
1. basis pak ik Mistral-Small 24B - 2506
2. lastig gedoe met Llama 3.3 70B Q4
3. code blijft deepseek next

Gaat gewoon even testen worden de aankomende weken.
Snelheid ben ik niet nodig, het gaat om kwaliteit in antwoord.

[ Voor 61% gewijzigd door Basic2me op 25-04-2026 12:08 ]

zaterdag 25 april 2026 12:25

Acties:

Merethil

Basic2me schreef op zaterdag 25 april 2026 @ 11:51:
Het is letterlijke vertaling waar veel mis gaat.

Ik voel mij onder het weer.
Het maakt zin.
Ik houd je gepost.
Breek een been!
Stuk van cake.

Bedankt, ik zal de benchmarks even doorlezen en verder uitpluizen, daar heb ik niet naar gekeken.

Edit:
Hartelijk dank voor de link en ben er zeer blij mee!
1. basis pak ik Mistral-Small 24B - 2506
2. lastig gedoe met Llama 3.3 70B Q4
3. code blijft deepseek next

Gaat gewoon even testen worden de aankomende weken.
Snelheid ben ik niet nodig, het gaat om kwaliteit in antwoord.

Die mistral 2506 is ondertussen al bijna een jaar oud, dus pak ook zeker de nieuwere versies. En de kleinere modellen zullen vast nog iets minder werken dan wat er getest was, dus het is ook een beetje spelen.
Hopelijk werkt het beter dan je nu hebt

zaterdag 25 april 2026 12:43

Acties:

MueR

Admin Devschuur® & Discord

is niet lief

Dit heeft niets met development te maken, dus naar Client software algemeen

Anyone who gets in between me and my morning coffee should be insecure.

zaterdag 25 april 2026 13:18

Acties:

Basic2me

Topicstarter

@Merethil $_/-\o_$

Zeer dankbaar en gebruik nu als basis:
Naam: mistral-small3.2:24b (laatse roll)
Architectuur: Mistral 3
Parameters: 24 miljard
Quantization: Q4_K_M
Context: 131K tokens
Grootte: ~15 GB

In 1 klap van alle ellende af!

[ Voor 3% gewijzigd door Basic2me op 25-04-2026 13:18 ]

zaterdag 25 april 2026 20:50

Acties:

Basic2me

Topicstarter

Eindeloze backups, 400+ uur in 5 weken voor iets wat Jarvis voorbij streefde...
1 avond code vibing met GPT

Ik ben helemaal op en kan wel janken.

[ Voor 8% gewijzigd door Basic2me op 25-04-2026 20:52 ]

Vraag

Alle reacties