mediaan gebruiken in

Pagina: 1
Acties:

Acties:
  • +1 Henk 'm!

  • 84hannes
  • Registratie: Juni 2004
  • Laatst online: 29-08 15:01
Mede-auteur:
  • BramVroy
  • Registratie: November 2009
  • Laatst online: 29-08 12:47

BramVroy

Beste @TijsZonderH,

In nieuws: Starlink-resultaten op Speedtest.net tonen downloadsnelheden tussen 1... lezen we
meer dan tien resultaten
en
De gemiddelde snelheid van alle ontdekte resultaten lijkt rond de 45Mbit/s te liggen.
Bij zo'n kleine dataset met zo'n grote standaardafwijking is een gemiddelde echt een slechte metriek. Dit soort fouten zie je continu in journalistiek en geven de lezer een erg slecht beeld van wat er echt te verwachten is. Gebruik mediaan ajb.
offtopic:
Sorry voor de spelfout in de titel

[ Voor 3% gewijzigd door 84hannes op 14-08-2020 21:57 ]


Acties:
  • +2 Henk 'm!

  • RoD
  • Registratie: September 2004
  • Niet online

RoD

Admin Mobile & FP PowerMod
De dataset is niet echt te klein om het gemiddelde te gebruiken en een grote standaardafwijking is ook niet relevant voor de beslissing of je het gemiddelde of mediaan gebruikt. Dat is alleen relevant voor je beslissing om median/mean/mode te gebruiken of een spreidingsmaat zoals de IQR of 95% CI.

Ik heb net even de individuele downloadsnelheden bekeken en ondanks de kleine sample size is er nog wel een rudimentaire normaalverdeling in te ontdekken. Lijkt me dus prima om het gemiddelde te gebruiken, ook omdat in het artikel de spreiding van de data al is aangegeven voor context.

Acties:
  • 0 Henk 'm!

  • BramVroy
  • Registratie: November 2009
  • Laatst online: 29-08 12:47
Dit is wel degelijk een probleem. Als je het gemiddelde geeft op 10-20 samples waar je in een werkelijk experiment (i.e. praktisch elke bewoner) een dataset van miljoenen keren groter zou willen zien, dan geeft dat gemiddelde een totaal nutteloos beeld. (Je hebt namelijk random datapunten verzameld in zo'n kleine dataset, dat je frequentie van meervoorkomende ranges niet modelleert.) Elke cursus statistiek zal je dat vertellen. De mediaan is daarbij beter omdat je vertelt aan de lezer dat dat een mediaan is: je hebt enkele samples verzameld, en het middelpunt is X. In kleine datasets zegt dat VEEL meer dan een nietszeggend gemiddelde.

[ Voor 11% gewijzigd door BramVroy op 15-08-2020 13:32 ]


Acties:
  • 0 Henk 'm!

  • BramVroy
  • Registratie: November 2009
  • Laatst online: 29-08 12:47
Daarnaast, een grote standaardafwijking op een kleine dataset zegt wel degelijks iets over de data en welke descriptieve metrics je het best gebruikt.

Acties:
  • +2 Henk 'm!

  • RoD
  • Registratie: September 2004
  • Niet online

RoD

Admin Mobile & FP PowerMod
BramVroy schreef op zaterdag 15 augustus 2020 @ 13:27:
Dit is wel degelijk een probleem. Als je het gemiddelde geeft op 10-20 samples waar je in een werkelijk experiment (i.e. praktisch elke bewoner) een dataset van miljoenen keren groter zou willen zien, dan geeft dat gemiddelde een totaal nutteloos beeld. (Je hebt namelijk random datapunten verzameld in zo'n kleine dataset, dat je frequentie van meervoorkomende ranges niet modelleert.) Elke cursus statistiek zal je dat vertellen. De mediaan is daarbij beter omdat je vertelt aan de lezer dat dat een mediaan is: je hebt enkele samples verzameld, en het middelpunt is X. In kleine datasets zegt dat VEEL meer dan een nietszeggend gemiddelde.
Oneens. Wat je hier bevraagd is of er een representatieve steekproef is gedaan. Dat is met een klein aantal samples inderdaad sneller een probleem, maar zonder onderliggende assumpties over de spreiding van de onderliggende data en een powercalculatie valt daar weinig over te zeggen. Dit heeft niets met het gebruik van een parametrische of non-parametrische descriptie te maken. Zoals ik in mijn eerdere post aangaf, de data is niet dusdanig skewed dat je geen mean zou kunnen gebruiken.

Natuurlijk is dit niet wetenschappelijk 100% juist, je hebt namelijk ook niet random datapunten verzameld. Maar laten we het niet overdrijven.

Acties:
  • 0 Henk 'm!

  • RoD
  • Registratie: September 2004
  • Niet online

RoD

Admin Mobile & FP PowerMod
BramVroy schreef op zaterdag 15 augustus 2020 @ 13:36:
Daarnaast, een grote standaardafwijking op een kleine dataset zegt wel degelijks iets over de data en welke descriptieve metrics je het best gebruikt.
Ben ik ook niet met je eens, zie ook mijn eerdere post. Bij grote spreiding is mean vs. median niet een betere descriptieve maat. Je wilt dan eerder iets als een IQR of 95% CI gebruiken.

Acties:
  • 0 Henk 'm!

  • BramVroy
  • Registratie: November 2009
  • Laatst online: 29-08 12:47
Je begrijpt me verkeerd. Ik stel niet in vraag of de steekproef representatief is (hoewel ik daar ook grote twijfels over heb), maar wel dat de dataset te klein is om een representatief resultaat te krijgen door een gemiddelde te nemen. Dat zijn twee verschillende dingen. Ook met normaal-verdeelde data is dat een probleem, los van je skew en kurtosis. Zelfs bij een representatief sample, moet je erg oppassen met hoe je dat presenteert omdat je data punt (of zelfs bin) te weinig values hebt. Het probleem dat ik heb is, samengevat, dat het effect van schaarse data voelbaarder is in een gemiddelde dan in een mediaan. Je zal bij een (te klein) sample vaak verder van het gemiddelde van de volledige populatie zitten dan van de mediaan.

Een mediaan is zeker ook niet wetenschappelijk de metriek bij uitstek, en ik zou als wetenschapper gewoon geen uitspraken doen over dit soort sample vanwege de schaarste. Ik heb reeds menig reviewer over de vloer gehad die me op hetzelfde probleem wees m.b.t. de grootte van je sample tegenover je populatie en hoe je dit moet weergeven. Maar als je op een populaire manier aan lezers toch informatie moet geven, is een mediaan de betere keuze tegenover het gemiddelde in dit geval. IQR zou misschien inderdaad de beste optie zijn, maar dat is bij Jan Modaal niet gekend vandaar dat ik mediaan voorstel.

Goed, je hoeft het van mij niet aan te passen en ik heb geen behoefte om er verder over te discussiëren. Je mag dit topic sluiten.

Acties:
  • +1 Henk 'm!

  • RoD
  • Registratie: September 2004
  • Niet online

RoD

Admin Mobile & FP PowerMod
BramVroy schreef op zaterdag 15 augustus 2020 @ 16:53:
Je begrijpt me verkeerd. Ik stel niet in vraag of de steekproef representatief is (hoewel ik daar ook grote twijfels over heb), maar wel dat de dataset te klein is om een representatief resultaat te krijgen door een gemiddelde te nemen. Dat zijn twee verschillende dingen. Ook met normaal-verdeelde data is dat een probleem, los van je skew en kurtosis. Zelfs bij een representatief sample, moet je erg oppassen met hoe je dat presenteert omdat je data punt (of zelfs bin) te weinig values hebt. Het probleem dat ik heb is, samengevat, dat het effect van schaarse data voelbaarder is in een gemiddelde dan in een mediaan. Je zal bij een (te klein) sample vaak verder van het gemiddelde van de volledige populatie zitten dan van de mediaan.
Als je dataset te klein is en je bang bent voor een niet representatief sample, dan heb je zowel met mean als median een probleem met weergave. Het wisselen van mean naar median levert dan niets op, behalve als je onderliggende data niet normaal verdeeld is. Dat is hier geen probleem, want dat heb ik dus gecheckt ;) Wel met de disclaimer uiteraard dat we er vanuit gaan dat de populatie-data dezelfde onderliggende verdeling heeft, al heb ik geen redenen om daar aan te twijfelen gezien het type data waar we mee te maken hebben.

Let wel, we hebben het hier niet over een n=3 oid, maar over 15 meetpunten en dat lijkt me voor zo'n artikel als deze voldoende om gewoon het gemiddelde te gebruiken, zeker omdat er best wel een rudimentaire normaalverdeling in is te ontdekken. Een gemiddelde heeft dan ook de voorkeur, omdat het voor de gemiddelde lezer gemakkelijker te interpreteren is.

Nee, ideaal is dit niet, maar kom op, dit is geen wetenschappelijk paper. Al ken ik ook wetenschappers die roepen "N=3 is voldoende want dan kun je een T-toets doen" :X
Een mediaan is zeker ook niet wetenschappelijk de metriek bij uitstek, en ik zou als wetenschapper gewoon geen uitspraken doen over dit soort sample vanwege de schaarste. Ik heb reeds menig reviewer over de vloer gehad die me op hetzelfde probleem wees m.b.t. de grootte van je sample tegenover je populatie en hoe je dit moet weergeven. Maar als je op een populaire manier aan lezers toch informatie moet geven, is een mediaan de betere keuze tegenover het gemiddelde in dit geval. IQR zou misschien inderdaad de beste optie zijn, maar dat is bij Jan Modaal niet gekend vandaar dat ik mediaan voorstel.
Klopt, IQR kennen mensen niet, maar een range wel, en die staat al in het artikel en nota bene in de kop :)

Acties:
  • 0 Henk 'm!

  • TijsZonderH
  • Registratie: Maart 2012
  • Laatst online: 09:19

TijsZonderH

Nieuwscoördinator
Ik zie dat er al lekker veel discussie is geweest terwijl ik 'gemiddelde' meer als spreektaal gebruikte en niet echt nadacht over hoe groot 'de dataset' zou zijn. Ik bedoelde meer 'de meeste van die 11 screenshots', dat is natuurlijk geen wetenschappelijke analyse. Ik heb de zin even wat omgegooid.

Deze handtekening kan worden opgenomen voor trainingsdoeleinden.

Pagina: 1