Fused schreef op 05 december 2002 @ 00:44:
Enkele vragen en opmerkingen die bij me opkomen:
1. Een beschrijving van een droom is erg multi-interpretabel, zeker aangezien mensen graag naar verbanden zoeken en ze zelfs zien waar ze niet zijn.
De droomen werden beoordeeld en gematched met de tapes door onafhankelijk beoordelaars. Als alle beoordelaars dezelfde tape kozen (wat als direct hit geinterpreteerd werd), dan is er sprake van een significante score. Dat is wat getest is, en zo zijn de resultaten opgebouwd.
1.1 In samenhang daarmee: wat beschouw je dan als een 'standaard' score en wat als een significante?
De standaardscore is het gemiddelde. Wat men zou verwachten bij pure kans. Indien mogelijk heeft men dit getest door de experimenten zonder proefpersonen te laten verlopen. De resultaten daarvan waren pure kans. Dus in een sequentie van 4 lampjes die random door een machine aangezet werden was de kans dat ieder lampje aan ging 25%.
In de experimenten komt naar voren dat er een ander percentage uit naar voren komt, zoals 30% dat lampje aan gaat of 28% dat men uit 4 kaarten de juiste kiest ipv de te verwachte 25%. Het feit alleen dat het hoger dan 25% is wil nog niet zeggen dat er werkelijk ESP bij betrokken is. Statistisch gezien wordt die kans echter steeds groter naarmate de resultaten verder afwijken van verwachte kanswaarde.
Bij de meeste onderzoeken is vermeld (voorin het boek overigens) dat de kritieke significantiedrempel 1% is. Dat betekent dat men het resultaat als significant ziet als het de kans dat de uitschieter toch door toeval veroorzaakt is. Indien deze kans gelijk is of kleiner is aan 1%, dan worden de resultaten als significant beschouwd. Binnen de psychologie is 5 a 10%.
De methode van berekenen is vrij eenvoudig. Uit een serie formules komt een z-waarde die kleiner moet zijn dan 0.01 wil het resultaat significant zijn. De kans-op-toeval ratios die her en der staan worden hier weer vanaf geleid.
Ik ben nu bezig met een module statistiek, dus het begint allemaal wat te zeggen. Ik ken de rekenmethodes, alleen zijn dit bijzondere kansverdelingen. Dus ik moet de exacte antwoorden schuldig blijven, maar ik hoop binnenkort de fomules zelf door te kunnen rekenen.
2. Hebben ze dromers waar niets naartoe gezonden werd laten beschrijven en die beschrijvingen gematched met foto's? (controlegroep)
Dat was niet nodig. Controlegroepen zijn bovendien duur, en het toepassen ervan is minder eenvoudig dan je zo zou denken. De transcripties van de dromen die opgenomen zijn spreken voor zich. Helaas kan ik die hier niet eenvoudig overtypen, maar 1 van de fotos betreft een maya-tempel. De ontvanger droomt vervolgens de hele nacht over zuid-amerika, inca's, maya's e.d. Er worden legio voorbeelden genoemd. Maar dat maakt geen bewijs natuurlijk. Als de onafhankelijk beoordelaars (3) allemaal dezelfde tape met dezelfde foto matchen, dan is dat een duidelijke indicatie dat de droom en de plaat enigszins met elkaar te maken hebben. Helemaal zeker? Nee, daarom is er ook een drempelwaarde van 1%. De kans, echter, dat het toch 'fouten' of toeval betreft is minimaliseerbaar klein.
2.1. Hebben ze dan gesprekken herhaaldelijk gebruikt bij dezelfde objectieve beoordelaar? Zoja, dan gaat zo'n beoordelaar misschien relatief beoordelen (ja, deze lijkt er meer op), waardoor de verdeling scheefgaat.
Nee. Iedere beoordelaar (er waren er 3) ontving na de gehele set sessies alle tapes en fotos in losse enveloppen in willekeurige volgorde.
2.2. Als de beoordelaars wisten wat ze deden, zouden ze onbewust weleens kunnen compenseren voor de 'vaagheid' van dromen en iets hoger waarderen.
Dat is praktisch onmogelijk gezien ze 36 platen te zien kregen en X tapes. Iedere tape behoorde bij een plaat (er waren minder rondes, dus niet iedere plaat was vertegenwoordig). Sommigen waren meermaals gebruikt (door de selectiemethode is dat mogelijk). Nogmaals, de kans dat 3 onafhankelijke beoordelaars los van elkaar exact dezelfde combinaties maken is zeer klein. Klein genoeg om dit onderzoek acceptabel te maken.
Ik wil hiermee alleen maar zeggen dat ik op basis van de verschafte gegevens niet kan beoordelen of het experiment deugdelijk is. Zelfs zeer ervaren experimentatoren onderschatten soms het effect van een kleine afwijking van de ideale situatie. Bij de significantie waar we hier over praten zijn kleine effecten heel belangrijk. Wanneer is een hit echt een hit? Hoe bepaal je in zo'n experiment de kans op een 'random' hit?
Een direct-hit is als de droom van de proefpersoon overeenkomsten vertoond met de juiste plaat (dat werd gescoord op een schaal - dus de beoordelaars beoordeelden in hoeverre droom en plaat overeen kwamen). Random hits zijn idd mogelijk - maar door statistische procedures praktisch zeker uitgesloten. Het is onmogelijk (bijna) dat de resultaten ontstaan zijn door alleen maar toevallige random hits en door beoordelaars die allemaal verkeerd beoordeelden.
Het experiment is nog niet perfect, en dat schrijft de auteur ook. Het is tevens een experiment dat lang geleden is uitgevoerd, en intussen zijn de onderzoeksmethodieken verder ontwikkeld.
Utts, die naam ben ik eerder tegengekomen; die is wel integer volgens mij. Maargoed, ik zou graag het werkelijke verslag lezen.
Misschien kan ik dit allemaal wel vinden in de databanken van de UU. Ik zal eens voor je kijken (ben zelf ook benieuwd).
26 is niet echt de goede nauwkeurigheid om deze claim bij te maken. Tenminste 1 cijfer achter de komma lijkt me noodzakelijk: 25.51 en 26.49 scheelt nogal wat in een normaalverdeling met een dergelijke standaarddeviatie.
Nee, daar geef ik je gelijk in. Maar het boek is geschreven voor de leek. Ik neem aan dat in het onderzoeksverslag, dat geaccepteerd is, men wel nauwkeuriger heeft aangegeven wat de score is.
Maar dat is niet helemaal terecht, omdat men altijd de onderzoeken vele malen repliceert en pas herbevestigde experimenten worden werkelijk geaccepteerd. De meta-analyse van zo'n geheel heeft dan een hogere significantie.
Metanalyses geven resultaten die helemaal niet te negeren zijn - daar kom ik zo op terug.
Ja daag, dat is veel te subjectief.
Mwa, valt mee. Bij veel psychologische onderzoeken meten de proefpersonen dit ook zelf. De test die gebruikt werd om de emotionele zwaarte te meten was dan ook een gestandaardiseerde 'emotional distress' test. Dat is niet zo subjectief als je denkt.
Op zich ziet het geheel er veelbelovend uit, maar juist dit laatste zit me dwars: waarom lukt het 71 van de 148 keer wel en daarna in 31 controlestudies helemaal niet? Dat is ook een statistisch significant resultaat...
En hier komen metaanalyses van pas.
Voor de mensen die hier niet bekend mee zijn; met metaanalyses berekent men de effectgrootte voor de succesvolle onderzoeken. Zo geven de positieve onderzoeken tezamen (dmv statistische standaardisatie worden alle onderzoeken uit 1 categorie op een hoop gegooid) een effect van bijvoorbeeld 0.2. Dat lijkt weinig, maar men kan vervolgens berekenen hoeveel niet-succesvolle experimenten daar tegenover moeten staan om de effectgrootte terug naar 0 te krijgen (wat betekent dat het puur toeval was).
Deze methode is bijzonder nieuw en wordt pas sinds kort toegepast. De resultaten binnen de psychologie en de parapsychologie zijn veelbelovend. Laten we ze eens bekijken.
De ganzfeldonderzoeken bestonden uit 28 direct-hit experimenten (en wat anderen die niet meegeteld waren omdat ze te anders waren). Deze studies bestonden uit , in totaal, 835 ganzfeldsessies in 10 verschillende labs. 43% van die onderzoeken toonde een significant verschil. De kans dat dit toeval is is 1 op een miljard.
De effectgrootte bedroeg 0.29. Dat is bijzonder hoog (bij de meeste psychologische onderzoeken is 0.1 genoeg). Het bleek dat om deze effectgrootte terug te brengen naar 0 er 423 onsuccesvolle experimenten moeten staan bij welke de resultaten op kansniveau zaten. Zoveel onderzoeken zijn nooit uitgevoerd. Sterker nog; de 28 waren alle bekende onderzoeken! Susan Blackmore, een bekende parapsychologe, heeft ooit onderzoek gedaan naar het achterhouden van onderzoeken met slechte resultaten. Zij kwam tot de conclusie dat dit niet gebeurde. Bovendien heeft de parapsychological association (waar alle onderzoekers bij aangesloten zijn) een beleid om 'bureala' activiteiten te ontmoedigen. Dit is uniek binnen de wetenschap.
In 1989 werden de resultaten van nieuwe ganzfeldonderzoeken gepresenteerd door Honorton. Er waren 358 sessies gehouden en het gemiddelde percentage was 34% (met uitschieters naar boven en naar beneden dus - helaas is st.dev. niet vermeld). De kans dat dit, per test, toeval bedroeg is 1:20.000. Gecombineerd met de vorige 28 studies is de kans dat alle resultaten door toeval kwamen 1 op 10 biljoen.
In datzelfde jaar werd een enorme metaanalyse uitgevoerd op microPK onderzoeken. Dit werd gepubliceerd in 'Foundations of Physics' (hier heb je je vage publicatie Fused) als 'bewijs voor een onverklaarbare relatie tussen het bewustzijn en toevalsprocessen'. De analyse werd uitgevoerd door Dean Radin (Psychologie Princeton) en Roger Nelson (PEAR Princeton). Ze spoorden 152 artikelen op met in totaal 597 experimenten en 235 controlestudies. De studies kwamen van 68 verschillende proefleiders. De kans op gezamelijk toeval betrof, als resultaat van de metaanalyse, 1 op 10 met 35 nullen (!!).
Men besloot een aantal onderzoeken uit het geheel te verwijderen omdat deze kwalitatief mogelijke confounds vertoonden. 17% werd uitgesloten en de beste onderzoeken bleven over. Het totale effect werd veroorzaakt door vele kleine gevonden effecten, en niet een paar onderzoeken met gigantische effecten.
Ook in 1989 werden kaartproeven onder loop genomen dmv metaanalyse. Ze beperkten zich tot 309 gepubliceerde studies van 62 auteurs met 50.000 proefpersonen. Gemiddeld gezien was 'slechts' 30% van de studies duidelijk significant. Pure kans zou echter slechts 5% verklaren - dus het getal 30% was op zich ook significant. Met de metaanalyse werd berekend dat er 14.000 tegen experimenten moesten hebben plaatsgevonden met geen bijzondere resultaten om het effect terug naar 0 te krijgen.
Een aantal scores waren zeer extreem (zowel 10% naar boven als naar beneden), en toen men die uit de analyse liet bleef er een resultaat over dat een kans van 1:een miljard om door toeval te zijn ontstaan. Het bijzondere was echter dat de onderzoeken die als 'best' geclassificeerd waren ook de beste scores gaven.
Dit zijn een aantal metaanalyses. De effectgroottes berekent voor RNG experimenten is slechts 0.0003 via 0.01 voor dobbelsteenonderzoeken naar 0.055 voor precognitie en 0.29 voor Ganzfeld (dit is echt enorm hoog - 1 is het maximum). Op het moment van schrijven is er een onderzoek uitgevoerd naar precognitie. Het bestond uit 60 studies met 17 onderzoekers en de effectgrootte was 0.09.
Er is ook onderzoek gedaan naar de correlatie tussen extraversie en ESP-gaven. Het blijkt dat mensen die als extravert worden geclassificieerd aanzienlijk hoger scoren. De gemeten effectgrootte over 221 proefpersonen betrof 0.18.
Overigens vroeg Fused naar publicaties. Ik ga die in ieder geval opzoeken. De beste publicatie is echter de vermelding naar ESP en metaanalyses in HET psychologie textboek 'Introduction to Psychology' van Ernest Hilgard en Richard Atkinson. Sinds 1990 heeft ESP een eigen paragraaf met onderzoeksresultaten en de stelling dat alhoewel de auteurs er nog steeds skeptisch tegenover staan, de resultaten zeer veelbelovend zijn.
Als deze scores niet overtuigend genoeg zijn, dan moet je je afvragen wat je dan verwacht. This is as good as it gets. Voor mij een zeer duidelijk aanwijzing dat ESP een echt bestaand iets is. De effectgroottes zijn klein, maar dat betekent waarschijnlijk dat we er gewoon praktisch geen controle over hebben. Maar nu is de interessantste vraag hoe we dit kunnen verhogen.