De Turing-test is en blijft een test naar interpretatie, waar inderdaad weinig algemene afspraken over zijn gemaakt. Dit is ook de zwakte van de test, vind ik. Daarover kunnen we een hele interessante, wetenschappelijke discussie houden, maar dat ga ik hier niet doen.
Het klopt dat er in het verleden hogere scores zijn bereikt met de Turing-test. Maakt dat die tests betrouwbaarder dan die werd uitgevoerd door de University of Reading? Ik betwijfel het. Zo doorstond Cleverbot de Turing-test ook ooit, maar werkte de bot tijdens die test lokaal, waardoor het programma veel sneller antwoorden kon opzoeken en ook zo relevantere antwoorden kon geven in vergelijking met de onlinevariant.
Zoals je al aangaf is de zwakte van de Turing-test dat er geen algemene, concrete afspraken over zijn gemaakt. Er staat nergens omschreven hoe bijvoorbeeld de metingen moeten worden uitgevoerd en hoeveel participanten er moeten zijn. Dit maakt de Turing-test naar mijn idee in zijn geheel interpretatiegevoelig. Dat is ook de reden waarom ik het artikel met voorbehoud heb geschreven. Alle feitelijke claims schrijf ik toe naar de universiteit. Daarnaast benoem ik dat er over het aantal participanten niets bekend is.
De reden waarom ik dit, weliswaar onder voorbehoud, toch heb gebracht is het volgende. De University of Reading is aangesloten bij RoboLaw, een consortium waarbij verschillende faculteiten van universiteiten zijn aangesloten. RoboLaw streeft uniform experimenteel onderzoek na. Om die reden vond ik het experiment betrouwbaar genoeg om te brengen. En verder: aan het onderzoek deden meerdere bots mee. Het was een eerste grote test waarbij tegelijkertijd meerdere chatbots aan de Turing-test werden onderworpen, wat mijns inziens de geldigheid van een dergelijk experiment vergroot.
Het is inderdaad goed mogelijk dat de participanten van tevoren werden beïnvloed door het karakter van de chatbot, dat ontken ik ook niet. Anderzijds zou je kunnen zeggen dat – als ze het van tevoren wisten – ze de bot er makkelijker en sneller uit hadden kunnen pakken, waardoor de Turing-test sowieso niet was geslaagd. Hiernaar kunnen we gissen, omdat hierover niets bekend is gemaakt.
Desondanks ben ik het niet eens met het argument dat de bot, door zijn fictieve leeftijd, ‘vals’ kon spelen. Bij de Turing-test komt het neer op interpretatie, zoals ik al eerder aangaf. Als een bot goed kan doen overkomen dat het een tiener is en hij lijkt hiermee realistisch, dan slaagt hij simpelweg voor de test – ongeacht of de antwoorden goed of fout zijn.
De Turing-test is natuurlijk een instrument om de ‘menselijkheid’ van computerprogramma’s te testen, maar is natuurlijk niet heilig. Dat beweer ik ook niet. Desondanks vind ik in het kader van de ontwikkeling van kunstmatige intelligentie dat elk – enigszins betrouwbaar - onderzoek dat de ‘menselijkheid’ van een computer kan meten en kan aantonen, zinnig is en daarom kan worden gebracht.
[
Voor 4% gewijzigd door
Ossebol op 10-06-2014 16:57
]
"One day, someone showed me a glass of water that was half full. And he said: 'Is it half full or half empty?' So I drank the water. No more problem." - Alexander Jodorowsky