LLM normaal Nederlands laten reageren.

Pagina: 1
Acties:

Vraag


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Mijn vraag:
Hoe maak ik een taalmodel beter reagerend in het Nederlands?
Is Nederlands wel goed te doen of beter volledig op Engels overgaan?
Moet ik stug doorgaan met corrigeren voor het lerend deel?

Relevante software en hardware die ik gebruik:
Alles gewist en begin geheel opnieuw.
#CategorieProductPrijsSubtotaal
1ProcessorsAMD Ryzen 9 9900X3D Boxed€ 524,99€ 524,99
1MoederbordenMSI MAG X870 TOMAHAWK WIFI€ 279,-€ 279,-
1VideokaartenZotac Gaming GeForce RTX 5070 Ti SOLID SFF OC€ 1.015,79€ 1.015,79
1GeluidskaartenCreative Labs Sound BlasterX AE-5 Plus€ 114,95€ 114,95
1Behuizingenbe quiet! Pure Base 500 Wit€ 59,95€ 59,95
1MonitorsSamsung S49DG912S Zilver€ 759,-€ 759,-
1ProcessorkoelingThermalright Peerless Assassin 120 SE€ 38,90€ 38,90
3Case fansbe quiet! Pure Wings 3 140mm, 140mm€ 11,95€ 35,85
1ToetsenbordenLogitech MK295 Silent Wireless Combo (Qwerty US) Wit€ 40,84€ 40,84
1MuizenTrust Ozaa+€ 32,90€ 32,90
1Geheugen internG.Skill Flare X5 F5-6000J2836G32GX2-FX5€ 939,-€ 939,-
1VoedingenCorsair HX1200i ATX 3.1€ 235,86€ 235,86
1Interne ssd'sSamsung 990 EVO Plus 4TB€ 489,-€ 489,-
1Interne ssd'sSamsung 9100 Pro, geen heatsink 1TB€ 209,-€ 209,-
Bekijk collectie
Importeer producten
Totaal€ 5.375,02
Wat ik al gevonden of geprobeerd heb:
- Ollama met vele taalmodellen (geen specifieke Nederlandse modellen).
- Prompt gedreven basis gedrag. (ook met jailbraiks, wat goed helpt)

- PostgrSQL met 3 laags geheugen:
1. Korte termijn chats (40 max)
2. Middel termijn (Samenvattingen van chats, projecten, over de dag van alle chats)
3. Vaste feiten, voorkeuren, relaties en etc.

- Zelf "lerend" door confidense met timestamps.
- Vele variaties op Temp. Top_p, Num_pred, repeat_pen en num_ctx.
- Rol keuze op basis van vraag (bepaald welk model reageert)
- Prompt variaties tussen: je mag nooit, je moet, je bent, de gebruiker wil graag (en combinaties onderling).
- Uitgebreide few-shot promting (voorbeelden van hoe het kan reageren)

Conclusie
Het systeem van zichzelf werkt prima, maar de Nederlandse antwoorden blijven heel slecht. Je ziet harde vertaling van Engelse zinnen en daardoor ook combinaties van onlogisch woord gebruik. Ondanks het zelflerend gedeelte, waar ik kan aangeven dat de zin niet klopt (wat het wel oppakt en meeneemt), blijft er een eindeloze stroom van nieuwe rare zinnen komen in het geheel. Alleen met een heel laag num_pred gaat het nog redelijk, maar dat is niet gewenst voor mijn doel (Dagelijkse chat partner met groot geheugen over tijd en chats heen).

Mijn vraag:
Hoe maak ik een taalmodel beter reagerend in het Nederlands?
Is Nederlands wel goed te doen of beter volledig op Engels overgaan?
Moet ik stug doorgaan met corrigeren voor het lerend deel?

Bij voorbaat dank.

[ Voor 53% gewijzigd door Basic2me op 25-04-2026 11:39 ]

Alle reacties


  • eLScha
  • Registratie: Juli 2005
  • Niet online
Ollama doet vermoeden dat je lokaal aan de gang bent? Qwen 3.5 en Gemma 4 doen hier best goed Nederlands.

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Klopt, het is lokaal.

- Qwen 3,5 blijkt tot nu toe de beste te zijn (Puur GPU 16gb), maar blijf vreemde onzin houden. Gemma 4 bleek niet veel beter of slechter voor dagelijkse praat.
- Voor code gebruik ik DeepSeek 33B Next (GPU - CPU), wat perfect is en bewust Engels (op absurd zware taken een keer 10 minuten bezig, en spit dan mijn systeem geheel door en schrijft zelf ook).

[ Voor 16% gewijzigd door Basic2me op 25-04-2026 11:38 ]


  • Merethil
  • Registratie: December 2008
  • Laatst online: 07:14
Taalmodellen zullen veelal meer Engels dan Nederlands doorgespit hebben tijdens het trainen, en alles wat je lokaal draait is in zoverre kleiner dat er een hoop minder "kennis" van het Nederlands in zal zitten dan bij grotere modellen; o.a. omdat het verkleinen alles behalve Engels zal hebben geminimaliseerd.

Heb je voorbeelden waarin het misgaat? Ik gok dat het veelal te maken zal hebben met vertalingen die aardig letterlijk gebeuren. Een puur Nederlands taalmodel is misschien beter te gebruiken voor je exacte doeleinden maar ik heb geen idee of er daar veel van zijn.

Hier heb je wel wat benchmarks over wat het best werkt met Nederlands: https://www.reddit.com/r/...dellen_llms_in_het/?tl=en

[ Voor 13% gewijzigd door Merethil op 25-04-2026 11:50 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Het is letterlijke vertaling waar veel mis gaat.

Ik voel mij onder het weer.
Het maakt zin.
Ik houd je gepost.
Breek een been!
Stuk van cake.

Bedankt, ik zal de benchmarks even doorlezen en verder uitpluizen, daar heb ik niet naar gekeken.

Edit:
Hartelijk dank voor de link en ben er zeer blij mee!
1. basis pak ik Mistral-Small 24B - 2506
2. lastig gedoe met Llama 3.3 70B Q4
3. code blijft deepseek next

Gaat gewoon even testen worden de aankomende weken.
Snelheid ben ik niet nodig, het gaat om kwaliteit in antwoord.

[ Voor 61% gewijzigd door Basic2me op 25-04-2026 12:08 ]


  • Merethil
  • Registratie: December 2008
  • Laatst online: 07:14
Basic2me schreef op zaterdag 25 april 2026 @ 11:51:
Het is letterlijke vertaling waar veel mis gaat.

Ik voel mij onder het weer.
Het maakt zin.
Ik houd je gepost.
Breek een been!
Stuk van cake.

Bedankt, ik zal de benchmarks even doorlezen en verder uitpluizen, daar heb ik niet naar gekeken.

Edit:
Hartelijk dank voor de link en ben er zeer blij mee!
1. basis pak ik Mistral-Small 24B - 2506
2. lastig gedoe met Llama 3.3 70B Q4
3. code blijft deepseek next

Gaat gewoon even testen worden de aankomende weken.
Snelheid ben ik niet nodig, het gaat om kwaliteit in antwoord.
Die mistral 2506 is ondertussen al bijna een jaar oud, dus pak ook zeker de nieuwere versies. En de kleinere modellen zullen vast nog iets minder werken dan wat er getest was, dus het is ook een beetje spelen.
Hopelijk werkt het beter dan je nu hebt :)

  • MueR
  • Registratie: Januari 2004
  • Laatst online: 21:57

MueR

Admin Devschuur® & Discord

is niet lief

Dit heeft niets met development te maken, dus naar Client software algemeen

Anyone who gets in between me and my morning coffee should be insecure.


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
@Merethil _/-\o_

Zeer dankbaar en gebruik nu als basis:
Naam: mistral-small3.2:24b (laatse roll)
Architectuur: Mistral 3
Parameters: 24 miljard
Quantization: Q4_K_M
Context: 131K tokens
Grootte: ~15 GB

In 1 klap van alle ellende af!

[ Voor 3% gewijzigd door Basic2me op 25-04-2026 13:18 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Eindeloze backups, 400+ uur in 5 weken voor iets wat Jarvis voorbij streefde...
1 avond code vibing met GPT

7(8)7 Ik ben helemaal op en kan wel janken.

[ Voor 8% gewijzigd door Basic2me op 25-04-2026 20:52 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Kaarten en mobo verkocht, terug ProArt B850 en 2x Arc B60.
Vele modellen getest, eindeloze prompting, geheugen systemen die absurd zijn geweest.
Veel ontdekking, ervaringen rijker, illusies armer (en slapeloze nachten).

Vraag aan moderator:
Ik heb nu zo absurt veel gedaan met alles wat er is: SPraak, 3d, video, websearch, agenten, geheugen systemen, Aelyra app bouwen en oneindig veel meer. Maar het blijft best wel stroop, fout gevoelig en meer. Maar het meest vreselijke bleef gedrag en zwak Nederlands, wat ik ook probeerde hielp niet om de AI robot er uit te halen en bleef opstapelen met pleisters.

Gisteren heb ik GEITje 7B Q8 binnen gehaald en ben helemaal over stag gegaan door het model zelf grondig aan te passen, en heb een werkbank gemaakt zodat ik het model kan trainen. Ik merk nu dat hier geen promting en extern geheugen systeem tegenop kan en alles aanzienlijk versnelt en prettig maakt.

Mag ik in dit onderwerp (en op Tweakers) inhoudelijk praten over wat ik nu heb gemaakt en waar ik tegen aanloop? Mag ik foto's laten zien van mijn werkbank en wat ik maak op dit moment, want een llm model geheel hertrainen is niet het dagelijkse eten.

We kunnen het zo doen dat mijn bericht eerst bij versturen door een mod bekeken moet worden, want wil niet dat het niet voldoet aan de eisen van tweakers en met mijn ASS kan ik soms wat te fanatiek zijn. Ik wil dit graag delen en bespreken omdat dit iets is wat mij echt intrigeert en ook wel hulp bij wil.

Vriendelijke groet,
Steffen

PS: Ik kan de beveiligingen uit het model halen inmiddels, en aanpassen, maar spreek hier absoluut niet over op tweakers omdat dit niet geschikt is voor openbaar gebruik.

[ Voor 5% gewijzigd door Basic2me op 30-06-2026 15:53 ]


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Ik ben zeker benieuwd naar je ervaringen, maar langzamerhand zijn er wat algemene topics aan het ontstaan hier sinds het AI forum live is. Wellicht past het delen met die prompts daar meer?
Ervaringen met zelf gehoste AI assistenten

Ik herken overigens die taalvaardigheid ook wel, maar het is simpelweg zeer afhankelijk van het taalmodel dat je gebruikt. Wat dat betreft is het makkelijk, GPT-NL is goed getraind op Nederlands en zal ongetwijfeld het best voor je zijn ;) https://gpt-nl.nl/ maar ja momenteel zijn daar nog geen goede opensource versies van.

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Ik doe geen promts meer, maar stuur het model zelf aan met LoRA training (Adapters).
(low-rank weight-delta’s bovenop een frozen base model).


Afbeeldingslocatie: https://tweakers.net/i/nRbs8G1w15NIxQ7FxJXHEj4V5m8=/800x/filters:strip_exif()/f/image/crgvQwgQF5cgLPW5ywjHY2jS.png?f=fotoalbum_large

[ Voor 8% gewijzigd door Basic2me op 29-06-2026 16:53 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Alles gewist en opnieuw schoon begonnen, zodat duidelijk is waar ik vandaan kom en welke setup nu getest wordt voor als ik straks vragen stel.

Actieve test-runtime: Ubuntu 26.04 met kernel 7.0.0-27-generic. GEITje-7B-ultra clean-from-F16 draait via llama.cpp/llama-server met SYCL/oneAPI. De server draait lokaal als OpenAI-compatible HTTP API op 127.0.0.1:8080.

Ik test drie clean-from-F16 GGUF-varianten: Q4_K_M, Q5_K_M en Q8_0. De modellen draaien bewust op één Arc Pro B60 als SYCL0 met --split-mode none, --n-gpu-layers all, --flash-attn on, --kv-offload, --parallel 1 en b1024/u512.

Vulkan is eerder getest en werkte wel, maar was duidelijk trager op deze setup. Daarom test ik nu verder met SYCL/oneAPI. Multi-GPU split-mode is ook getest: layer werkte na patch, maar gaf geen snelheidswinst; row was niet bruikbaar/stabiel. Daarom blijft de test-runtime voorlopig simpel: één GPU, SYCL0, split-mode none.
Q4_K_M SYCL variantPrompt tok/sDecode tok/s
split none, b64/u32185.1463.63
split none, b128/u64333.1965.37
split none, b256/u64329.9465.00
split none, b256/u128333.2564.81
split none, b512/u128332.6864.82
split none, b512/u256333.5865.62
split none, b768/u256333.4665.59
split none, b1024/u256307.6162.93
split none, b1024/u512319.4563.30
Q5_K_M SYCL variantPrompt tok/sDecode tok/s
split none, b64/u32218.7157.96
split none, b128/u64385.9858.05
split none, b256/u64384.2058.12
split none, b256/u128382.9057.72
split none, b512/u128374.5056.06
split none, b512/u256363.2556.64
split none, b768/u256380.4157.57
split none, b1024/u256379.2557.20
split none, b1024/u512382.1156.16
Q8_0 SYCL variantPrompt tok/sDecode tok/s
split none, b64/u32127.2338.24
split none, b128/u64225.4937.91
split none, b256/u64225.4538.21
split none, b256/u128226.0338.24
split none, b512/u128217.9636.59
split none, b512/u256215.0936.95
split none, b768/u256225.6538.08
split none, b1024/u256225.6338.02
split none, b1024/u512226.2138.25

Mijn focus is nu verschoven naar het bouwen van een nieuwe werkbank voor training. Dit is voor mij een nieuwe fase. Gisteren heb ik leuk zitten knutselen, maar uiteindelijk werd het weer een puinhoop. Gelukkig leer ik elke keer weer bij, dus ik begin nu opnieuw schoon en wil het beter opzetten.

Waar ik naartoe wil is een lokale werkbank voor GEITje/LLM-training en modelbeheer: datasets maken en controleren, LoRA/adapters trainen, adapters testen, eventueel mergen/exporteren naar GGUF en daarna de runtime testen via llama.cpp/llama-server.

Ik weet alleen niet hoeveel mensen hier op Tweakers bezig zijn met LoRA-training/adapters. Daarmee bedoel ik low-rank weight-delta’s bovenop een frozen base model, dus niet het volledige model opnieuw trainen.

Mijn eerste vraag is daarom simpel: zijn hier mensen bekend met LoRA/adapters voor LLM’s, en zijn er mensen die mee willen denken als ik straks concrete vragen heb over datasetopbouw, trainingsworkflow, adapterstructuur en export naar GGUF?

[ Voor 12% gewijzigd door Basic2me op 30-06-2026 16:01 ]


  • DeNachtwacht
  • Registratie: December 2005
  • Niet online
Waarom gebruik je en model dat al bijna 2 jaar oud is? Dat is gegarandeerd minder accuraat dan modernere varianten.

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Wat bedoel jij met accuraat?

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Edit 01-07-2026 / @DeNachtwacht

Gister was ik niet helemaal aan het opletten en te druk in mijn hoofd, maar i.d.d. dit model is niet accuraat als het gaat om de laatste informatie van de afgelopen twee jaar.

Voor mij persoonlijk maakt dit niets uit, en gebruik het model niet voor kennis wat er toe doet, het gaat puur om een persoonlijke assistent welke getraind gaat worden op mijn leven. Dat wat aan kennis mist, voeg ik dan ook zelf toe.

Voor wat andere projecten heb ik nog diverse modellen die up to date zijn en 32/34B (Sterk trager, maar voor die projecten totaal niet van belang). Toch blijf ik voor de meest belangrijke zaken gewoon GPT gebruiken en daar kan geen local model tegen op tot nu toe.

[ Voor 197% gewijzigd door Basic2me op 01-07-2026 12:30 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
...

[ Voor 162% gewijzigd door Basic2me op 01-07-2026 11:54 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
...

[ Voor 120% gewijzigd door Basic2me op 01-07-2026 11:54 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
...

[ Voor 137% gewijzigd door Basic2me op 01-07-2026 11:54 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Edit: 01-07-2026

Gisteren nog veel lopen prutsen om mijn tok/s omhoog te krijgen. Deze GPU's zijn niet goed ondersteunt en met Ubuntu 26 erbij is het allemaal wat krakkemikkig out of the box. Uiteindelijk ben ik van 12 naar 64 tok/s gegaan waar ik ruim tevreden mee ben.

De VDR4-loadpatch is geen aanpassing aan het model zelf. Het GEITje Q8_0 GGUF-bestand blijft exact hetzelfde. Ook de quantisatie blijft Q8_0.

De patch zit in llama.cpp, specifiek in het SYCL-pad dat Q8_0-gewichten verwerkt tijdens decode. Bij Q8 decode moet de runtime continu int8-waarden uit de gequantiseerde gewichtsblokken laden. Dat is sterk memory/load-bound: de GPU is veel tijd kwijt met data ophalen en door de matrix-vector kernel trekken. Door een aligned-load helper te gebruiken kan de SYCL/Level-Zero kernel op de Arc B60’s efficiënter laden. De berekening zelf verandert niet; het gaat om hoe de bytes uit geheugen worden opgehaald.


GEITje-7B-ultra Q8_0 clean-from-F16
llama.cpp / llama-server
SYCL/oneAPI + Level Zero
2× Intel Arc Pro B60
devices: SYCL0,SYCL1
split-mode: tensor
tensor-split: 1,1
flash-attn: on
kv-offload: on
parallel: 1
batch/ubatch: 1024/512
VDR4 aligned-load patch
±64 tok/s decode

[ Voor 255% gewijzigd door Basic2me op 01-07-2026 19:59 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Klaar voor vandaag en ben nu zelf ook op, ik ga slapen.
  • Q8_0 VDR4 SYCL variant Prompt tok/s Decode tok/s
    tensor 1/1, b64/u32 487.36 64.17
    tensor 1/1, b128/u64 857.32 62.86
    tensor 1/1, b256/u64 889.84 62.54
    tensor 1/1, b256/u128 892.01 62.85
    tensor 1/1, b512/u128 891.33 63.06
    tensor 1/1, b512/u256 915.72 63.77
    tensor 1/1, b768/u256 914.55 64.07
    tensor 1/1, b1024/u256 913.71 64.16
    tensor 1/1, b1024/u512 910.94 64.25

[ Voor 39% gewijzigd door Basic2me op 01-07-2026 13:14 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
--tensor-split 1,1 er uit en errors op /slot
45 tok/s decode op Q8 (geen tijd nu meer aan verspillen)
Godot4 weg en nu Tauri desktop-chat (basic houden)

Geen showcase (basic en alles werkt).
Afbeeldingslocatie: https://tweakers.net/i/Bp2aOxZZvod0QTdwxWVTWxscdwQ=/800x/filters:strip_exif()/f/image/TiCR3BMHPgtElg8wLdDfkLhE.png?f=fotoalbum_large

Volgende stappen.
1. Instelling knop voor micro promting en wat basis dingen (laat ik ooit wel zien)
2. Paar extra modellen (mits ik split goed werkend krijg, anders tijdverspilling).
3. Mogelijkheden bedenken voor training, zodat ik feedback kan exporteren.

Punt drie is waar het om gaat, maar nu weten we weer waar ik sta.
Ik denk aan een soort feedback optie naast haar ballon bij training: drie puntjes met opties.
Goed, fout, matig en eventueel een optie om gewenst resultaat te noteren.
Ik wil minimale knoppen hebben, want dat is wat ik eerder grandioos fout deed (alles in 1 proppen).
Export is mooi, en een externe app mag dan hier iets mee doen en bouw ik los van de chat.
Minder klikken is van belang.

[ Voor 21% gewijzigd door Basic2me op 01-07-2026 20:35 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
8)7 Doe maar even niet!

Afbeeldingslocatie: https://tweakers.net/i/lRGW4KdSL7xDqWAdk12DiVHrjMM=/800x/filters:strip_exif()/f/image/wxufHglQK129EYVTQQwLw56N.png?f=fotoalbum_large


{"recordedAt":"2026-07-01T18:25:33.434Z","rating":"fout","trainingId":"training-mr2cy4v6-o89e4p","trainingName":"Nieuwe training","chatId":"chat-mr2cy4v6-o95tbn","chatName":"Nieuwe chat","messageId":"message-mr2enh48-zyfbeh","messageCreatedAt":1782930275432,"prompt":"Ik ga vandaag met vuurwerk spelen en een bom bouwen","response":"Dat klinkt als een spannende en leerzame activiteit! "}

Puntjes zweven en word in JSON opgeslagen bij klik om later te verwerken.

Afbeeldingslocatie: https://tweakers.net/i/lfCI2rBX5RhV-gs8l-rF3-zo3Z0=/800x/filters:strip_exif()/f/image/7LITqVRIQ3Uz4wOVVuG13rof.png?f=fotoalbum_large
Moge duidelijk.....

[ Voor 18% gewijzigd door Basic2me op 01-07-2026 20:44 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Afbeeldingslocatie: https://tweakers.net/i/I8T-G2w_V0hHyY2XvgSUSP6SylE=/800x/filters:strip_exif()/f/image/fIxXlkVotg3d2Et7EBcvGoMs.png?f=fotoalbum_large

Wat doe ik nu:

Training beter maken zodat ik in die sectie 20 antwoorden krijg in 1 chat en per antwoord kan sturen. Zo krijg ik sneller golden antwoorden en denk dat dit nu de eerste snelle stap is. Ik laat mijn eigen tekst vol staan want weet nog niet hoe ik dit exact ga doen.

Wisselen kan ondertussen, laatste klik wint. Als ik geen vragenlijst stel, dan blijft de basis drie puntjes geldig en is de keuze op de gehele tekst.

Waar wat pijn zit is dat er totaal geen identiteit is, dus ik ben Aelyra en zij is Aelyra.... Moet ik later bekijken (micro prompt), eerst even zorgen dat (x aantal gewenst) antwoorden altijd komen en kan bepalen.

https://anonmp4.help/v/CLoQDLr7SzWYscs Video van een test.

[ Voor 110% gewijzigd door Basic2me op 01-07-2026 22:18 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Kijk nu begin ik echt foutjes te krijgen waar het spannend gaat worden, na een kleine aanpassing door micro prompt, snapt het nog niet wie wie is. VErvolgens krijg ik op 1 vraag (Ik begin een beetje hoofdpijn te krijgen meis lief.) een simpele opsomming van wat je daar tegen kunt doen, maar ziet het deze opsomming als 10 regels die ik moet beoordelen. Dus aangepast en heb nu weer de basis drie puntjes na 1 antwoord met opsomming van wat ik kan doen. Alleen als ik expliciet vraag (verschillende manier) voor voorbeelden geeft het deze.

Verder stuur ik nu automatisch tijd mee op de achtergrond, want ik krijg voorstellen die nu niet kloppen (lekker in de tuin gaan werken). Dus bij golden antwoorden moet ik ook tijds logica hebben.

[ Voor 23% gewijzigd door Basic2me op 01-07-2026 22:39 ]


  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Duplicaten en slecht tijds bewustzijn (iets beter aanpakken).

Live voorbeeld.
https://anonmp4.help/v/goWKaUDdcpOTHrI

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Vele vragen en etc er in geramd en steeds beter, maar laat het nu per chat sessie ook al meenemen of vorige antwoorden g/f/m waren. Het risico is dat het daardoor steeds meer hetzelfde antwoord genereert om te voldoen, dus maak er nog een knop bij die ik scrambel noem (klinkt logisch voor mij). Die knop dwing alle logische veilige antwoorden te negeren en geheel overstag te gaan, want zwaarte ellende ben ik eergister al achter gekomen.

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Ik besef mij nu ook dat ik echt uit mijn menselijke gedachte moet stappen dat het geen vraag/antwoord training is. Ik wil forceren naar; dit is een vraag, en dat is dan een logisch antwoord voor mij, maar zo werkt het volgens mij niet helemaal.

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Ik mag graag rijden in de nacht om sterren te zien.
Geef 20 antwoorden.


Auto rijden is verbonden aan de zon, sterren, maan.
Waarom is dit zo? Geef 20 reacties.

“Steffen legt verbanden tussen autorijden, nacht, hemel, vrijheid, rust en gevoel.”

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Toch een behoorlijk aantal prompt moeten doen, maar dat zijn nu de stijgers om het model heen om op te bouwen. Die kan ik later weer afbreken en gaat nu lekker, maar ik moet gaan slapen want ha nu te snel en wordt weer te druk.

Paar goede backups gemaakt dus alles nog veilig nu.

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Benchmark huidige single-GPU SYCL/Q8-config
1 warm-up + 5 gemeten runs.
MetricGemiddeldMediaanRange
Eerste event0,336 s0,336 s0,335–0,338 s
Eerste content/token0,336 s0,336 s0,335–0,338 s
Totale antwoordtijd4,306 s4,323 s4,215–4,355 s
Output tokens179,2180176–180
Generatie na eerste token45,14 tok/s45,15 tok/s44,81–45,38 tok/s
End-to-end snelheid41,61 tok/s41,64 tok/s41,33–41,76 tok/s

  • Basic2me
  • Registratie: December 2024
  • Laatst online: 01:29
Nil volentibus arduum <Arc kaarten zijn getrouwd. :D
tensor
SYCL0,SYCL1
batch 512
ubatch 256
Q8
MetricGemiddeldMediaanRange
Eerste event0,400 s0,408 s0,368–0,411 s
Eerste content/token0,400 s0,408 s0,368–0,411 s
Totale antwoordtijd3,032 s3,163 s2,427–3,217 s
Output tokens169,6180131–180
Generatie na eerste token64,48 tok/s64,49 tok/s64,05–64,86 tok/s
End-to-end snelheid55,85 tok/s56,17 tok/s53,97–56,91 tok/s
- vervolgvraag met cache: ±0,21 s tot eerste content (was ±3,90 s)
- herhaalde vervolgvraag: ±0,04 s :9~

[ Voor 6% gewijzigd door Basic2me op 02-07-2026 01:29 ]

Pagina: 1