Gebruik gemiddelden in reviews - Geachte redactie

maandag 26 juli 2010 18:06

Acties:

Topicstarter

In een review als reviews: De MacBook Pro 13" en 15" tegen elkaar afgezet valt me op dat jullie vermelden dat benchmarks bijvoorbeeld "driemaal gedraaid zijn" (p. 3) of "meerdere malen uitgevoerd zijn" (p. 5) ten behoeve van wat jullie zelf nauwkeurigheid noemen. Zijn de scores die daar staan dan ook gemiddelden van die drie getallen, of is er voor iets anders gekozen?

Zo'n gemiddelde schiet je namelijk niet heel veel mee op: er is geen foutenmarge bij vermeld. Voor mij als lezer is het nu onmogelijk te beoordelen of het gemiddelde is bepaald uit allerlei uitschieters naar boven en beneden met bijbehorend hoge standaarddeviatie, of dat het apparaat juist heel erg betrouwbaar is met σ vrijwel nul.

Een tweede aspect is dat de scores soms marginaal uit elkaar liggen, en toch wordt gezegd dat A beter is dan B. Dat kan inderdaad waar zijn, maar dan moeten de foutenmarges elkaar ook niet overlappen wil je die conclusie kunnen trekken (3300 +/- 100 en 3350 +/- 70 zijn bijvoorbeeld niet significant verschillend).

Al met al: kunnen er in het vervolg foutenmarges bij dergelijke gemiddelden vermeld worden wanneer ze gebruikt worden binnen een review? Het zou de reviews een stuk "harder" maken, met name om als lezer onderlinge scores en resultaten met elkaar te kunnen vergelijken.

dinsdag 27 juli 2010 10:45

Acties:

Olaf

Uiteraard nemen we opvallende uitschieters of afwijkingen niet mee bij de gemiddelden. De cijfers moeten bij een run dicht bij elkaar liggen. Foutmarges melden lijkt me niet zo verstandig, dan krijg je weer discussie hoe groot de marge moet zijn. Wel proberen we altijd te voorkomen dat we al te harde conclusies verbinden aan resultaten als deze dicht bij elkaar liggen.

dinsdag 27 juli 2010 13:11

Acties:

G33rt

Topicstarter

Wat bedoel je precies met de discussie over hoe groot de marge moet zijn? Als je het gemiddelde van een verzameling getallen uitrekent, zou je de bijbehorende standaarddeviatie gewoon kunnen uitrekenen. Dan weet je ook dat 67% van de metingen binnen die marge valt. Of is dat niet wat jullie onder een foutenmarge verstaan? Juist door te "eisen" dat de cijfers dicht bij elkaar moeten liggen en uitschieters selectief eruit te gooien ben je je eigen metingen aan het beinvloeden

dinsdag 27 juli 2010 13:52

Acties:

Olaf

Meestal heeft het een reden als er vreemde uitschieters zijn en overigens komt dat niet vaak voor. Het zijn geen complexe wetenschappelijke onderzoeken.

Waar het meerwaarde kan bieden of discussies en onduidelijkheden kan voorkomen is het best een optie de standaardafwijking te melden.

dinsdag 27 juli 2010 14:17

Acties:

Verwijderd

Dat is nou juist het punt... Het levert altijd meerwaarde om de standaard deviatie in de tabellen op te nemen. Omdat je alleen dan pas weet hoe significant de gemeten verschillen zijn. Zonder standaard deviatie zeggen de uitkomsten helemaal niets.

En het is echt een heel kleine moeite om de marges in de tabellen te zetten. Dat zijn standaard functies in programma als Excel. En zo'n klein streepje is ook helemaal niet storend in de tabellen.

dinsdag 27 juli 2010 14:19

Acties:

TERW_DAN

Met een hamer past alles.

Daarbij, de waardes van een benchmark liggen juist vaak heel dicht bij elkaar, en als je een uitschieter hebt is het vaak wel te verklaren (zo heb ik wel eens hele rare uitschieters gehad op de cpu score, bleek er een stukje software te zijn dat de cpu omhoogklokte zodra je een benchmark startte), maar als je een zooitje runs draait, dan zullen de verschillen in 1 config minimaal zijn. Dus dan is gewoon het gemiddelde goed genoeg lijkt me. Of je nu gemiddeld 14.12 of 14.13 frames per seconde haalt maakt voor het eindresultaat niets uit. Pas op het moment dat je met grote verschillen gaat werken zou ik de moeite nemen om het te vermelden.