Voor de onderzoeksopzet maakt dat natuurlijk niet uit. De diverse LLM's confabuleren de onderbouwing voor een essay namelijk gewoon.Stukfruit schreef op dinsdag 1 juli 2025 @ 19:51:
Het is vooral bewijs dat het zo werkt, maar de conclusie die getrokken lijkt te worden vind ik niet kloppen.
Nu moet ik er bij vermelden dat ik nog niet de hele paper heb gelezen, dus wellicht halen ze het zelf ook aan. Maar check even een voorbeeld (pagina 27):
[...]
Wordt hier niet gemist dat als je zo'n prompt door een LLM haalt dat er geen onderbouwde mening uit kán komen rollen omdat het taalmodel herkauwt wat de input voor het model was? Het kán niet redeneren over dit soort zaken.
Wat ik eigenlijk wil zeggen: dit zijn 100% geen vragen waar je een taalmodel voor zou gebruiken.
Natuurlijk zullen er heel veel mensen zijn die dit wel gaan doen omdat ze niet begrijpen wat de mogelijkheden van een taalmodel zijn, maar ik vond het ondanks dat toch wel een belangrijke kantnoot.
Het heeft nogal wat gevolgen voor de conclusies die getrokken lijken te worden.
Het gaat er binnen de uitkomsten verder ook helemaal niet zozeer om of één en ander inhoudelijk juist is. Maar meer om te toetsen wat het effect is op bijvoorbeeld memory retention. Ben jij in staat om adequaat te onthouden wat jij net in je essay hebt geschreven.
Waarin de uitkomsten in zekere zin ook niet geheel verrassend zijn. Vervang LLM door "vriend X met altijd goede cijfers" en het resultaat zal voor de gemiddelde middelbare scholier niet veel anders zijn geweest. Des te meer werk een ander levert, des te minder dat het bij jezelf beklijft.
De vraag is verder natuurlijk nog altijd wel, is dit erg?
Persoonlijk denk ik het niet direct. Sure, mensen moeten weten wat de beperkingen zijn van modellen. Maar dit is vergelijkbaar zoals velen van ons opgegroeid zijn met online zin van onzin onderscheiden. Information at our fingertips. In plaats van alles nog tot in den treuren stampen.
Eén en ander is in loop der jaren gewoon komen te verschuiven, van:
1. Stampen van rijtjes, beschikken over parate kennis;
2. Naar weten hoe informatie online te vinden, informatie op waarde te schatten;
3. Tot weten welke modellen voor welke vraag te gebruiken, hernieuwd beschikken over parate kennis (by proxy).
Stap 3 zijn we natuurlijk nog niet helemaal. Maar naarmate a) modellen zich ontwikkelen en b) de gemiddelde persoon een beter begrip ontwikkeld van de diverse modellen, komt dit vanzelf. Er zal al snel natuurlijk wel een generatie overheen gaan alvorens je dit bereikt.
En net als dat er nu nog altijd mensen zijn die het allemaal maar onzin vinden om informatie te googlen, online bronnen te raadplegen, etc. Vinden dat alles parate kennis dient te zijn. Zullen er natuurlijk ook nog lange tijd mensen zijn die zullen gaan propageren zelf te moeten weten waar één en ander te vinden.
Terugkerend op de onderzoeksopzet, is dit verder natuurlijk ook gewoon mede bepalend voor de uitkomst:
Stage 4: Essay Writing Task
Once the participants were done with the calibration task, they were introduced to their task:
essay writing. For each of three sessions, a choice of 3 topic prompts were offered to a
participant to select from, totaling 9 unique prompts for the duration of the whole study (3
sessions). All the topics were taken from SAT tests. Here are prompts for each session:
Vervang LLM weer door vriend X. Indien ik vriend X in belangrijke mate of geheel mijn essay laat schrijven, en dit inlever bij de docent, met de opdracht "schrijf een essay". Dan wordt het achteraf natuurlijk ook lastig selectief quoten. Dit was de opdracht namelijk helemaal niet.Post-assessment interview analysis
Following the task completion, participants were then asked to discuss the task and their
approach towards addressing the task.
The questions included (slightly adjusted for each group):
29
...
3. Can you quote any sentence from your essay without looking at it?
If yes, please, provide the quote.
...
Ergens zie ik dit soort resultaten dan ook een beetje als een open deur.
Verder zijn er natuurlijk ook een aantal conclusies waarvan translatie naar dagelijkse praktijk in twijfel te trekken valt. Bijvoorbeeld op vlak van creativiteit.
De studie opzet in deze is zo namelijk ook weer bepalend.
In dit geval krijgen de studie deelnemers zelf de keuze om een essay te schrijven, uit een set van opdrachten, naar eigen keuze. Hierin kun je er dus voor kiezen om een onderwerp te kiezen welk redelijk in je eigen straatje ligt. Dat het in dit geval creativiteit niet ten goede komt, door een LLM een belangrijk deel voor te laten kauwen, is wederom natuurlijk weer een open deur.
Maar veel interessanter is het natuurlijk om te weten, hoe zit dit bijvoorbeeld op moment dat je iets moet schrijven dat in zekere zin ver buiten de eigen comfort zone ligt, buiten de directe eigen expertise, en iets dat je gewoonlijk liever uit de weg gaat. Het zou mij niet verbazen om te zien dat de conclusies in dat geval, totaal anders zouden zijn.
Eerst zien, dan geloven. Binnen mijn eigen werkveld, werd inmiddels alweer bijna 10 jaar geleden tijdens de opmars van AI geroepen dat nieuwe radiologen eigenlijk maar beter een andere opleiding konden gaan zoeken. Binnen een klein aantal jaar zouden wij volledig vervangen zijn. Ook een aantal Nederlandse politici hebben dit idee nog wel eens geroepen.champion16 schreef op maandag 19 mei 2025 @ 19:01:
CPO (chief product officer) van OpenAI heeft 3 dagen geleden gezegd dat hun coding agent (Codex) van junior engineer naar senior (6 maanden) en architect (1 jaar) zal gaan.
(Bron: YouTube: A conversation with OpenAI’s Chief Product Officer, Kevin Weil).
Wat denken we hiervan? Dat zou betekenen dat binnen een jaar een groot deel van het werk van een IT er zal verdwijnen...
Zal heus wel een wij van wc eend gedeelte in zitten, maar wel lastig..
Ondertussen zijn we bijna 10 jaar verder. Is AI een leuk hulpmiddel binnen een zeer beperkt aantal vraagstellingen. Is er nog geen enkel AI pakket dat stand-alone bijvoorbeeld een CT onderzoek volledig beoordeelt, in plaats van enkel het doen beantwoorden van een zeer afgebakende subvraag. En zelfs beantwoorden van die subvraag, kan nog geen enkel product in de dagelijkse praktijk ook maar echt nabij medisch verantwoord.
In belangrijke mate zit er natuurlijk ook gewoon veel technology push achter. Er gaat veel geld om in de AI industrie. Het is een lucratieve business. En daarin is het natuurlijk ook voornamelijk belangrijk om shareholders een worst voor te houden.