Ik liet ChatGPT (5.3), Claude (Opus 4.7) en Gemini op 1 mei alle 72 WK-groepswedstrijden voorspellen. Verse chat per model, identieke prompt.
ChatGPT voorspelde Ivoorkust-Curaçao binnen één antwoord twee keer: eerst 2-0, vier regels later 1-0. Door dat duplicaat ontbraken Duitsland-Ivoorkust en Ecuador-Curaçao volledig uit de output. Verifieerbaar via de gedeelde sessie.
Op de 66 vergelijkbare wedstrijden:
- 19/66 alle drie identiek
- 23/66 oneens over wie wint
- 14/66 drie verschillende scores
Toen ik in een tweede ronde de FIFA-loting, wedstrijdvolgorde én puntentelling letterlijk in de prompt plakte, bleven de drie modellen op 18 van de 72 wedstrijden een andere winnaar geven. 1 op 4, ook met maximale context.
Niet schokkend voor wie weet hoe LLMs werken, maar wel een aardig reproduceerbaar voorbeeld van zero self-consistency over 30 regels gestructureerde output. Methodiek en de Excel staan op pouletips.nl/ai-experiment.
Benieuwd of iemand de duplicate-bug op dezelfde prompt kan reproduceren.
ChatGPT voorspelde Ivoorkust-Curaçao binnen één antwoord twee keer: eerst 2-0, vier regels later 1-0. Door dat duplicaat ontbraken Duitsland-Ivoorkust en Ecuador-Curaçao volledig uit de output. Verifieerbaar via de gedeelde sessie.
Op de 66 vergelijkbare wedstrijden:
- 19/66 alle drie identiek
- 23/66 oneens over wie wint
- 14/66 drie verschillende scores
Toen ik in een tweede ronde de FIFA-loting, wedstrijdvolgorde én puntentelling letterlijk in de prompt plakte, bleven de drie modellen op 18 van de 72 wedstrijden een andere winnaar geven. 1 op 4, ook met maximale context.
Niet schokkend voor wie weet hoe LLMs werken, maar wel een aardig reproduceerbaar voorbeeld van zero self-consistency over 30 regels gestructureerde output. Methodiek en de Excel staan op pouletips.nl/ai-experiment.
Benieuwd of iemand de duplicate-bug op dezelfde prompt kan reproduceren.