Interpretatie van resultaten Grote Geheugentest - Geachte redactie

dinsdag 18 maart 2014 10:55

Acties:

Topicstarter

Feedback naar aanleiding van het artikel: reviews: De grote Tweakers-geheugentest
(Zie ook mijn commentaar daar: Nonstop decay in 'reviews: De grote Tweakers-geheugentest')

De test is erg goed en uitgebreid, naar mijn mening, en ik ben dan ook erg blij dat de moeite is genomen een dergelijke test te ondernemen en te publiceren. De resultaten worden ook net beschreven, maar missen hier en daar wat statistische onderbouwing. Laat ik een voorbeeld geven om het te illustreren:

http://charts.tweakzones.net/FWERK/1/fs.html

De Home-test van PCMark profiteert van extra geheugen, hoewel de verschillen tussen de resultaten met 16GB en 4GB nog altijd zeer klein zijn.

Of:

http://charts.tweakzones.net/lkac8/1/fs.html

Ook hier zijn de verschillen niet schokkend; de 2x 4GB-configuratie lijkt optimaal voor de beide platforms.

De verschillen in resultaten zijn echter zo klein, dat ik betwijfel of ze er daadwerkelijk zijn. Door er een statistische test op los te laten, kan men aantonen of er van een verschil kan worden gesproken. Als de verschillen in de resultaten niet significant blijken, mag er niet van een verschil worden gesproken.
Afijn, waarschijnlijk is dit al bekend bij de redactie en is er misschien zelfs over nagedacht om de statistiek erbij te betrekken. Ik kan me voorstellen dat dit vanwege de benodigde extra inspanning en tijd achterwege is gelaten. Ik wil echter benadrukken dat zonder deze statistiek de conclusies niet kunnen/mogen worden getrokken en hoop dan ook dat toch iemand zich geroepen voelt om de berekeningen uit te voeren.
Niettemin blijft het een goede test, een leuk onderzoek, en lees ik dit soort artikelen graag.

dinsdag 18 maart 2014 11:02

Acties:

Verwijderd

Wat is de foutmarge bij dit soort test? Doen jullie de test meerdere malen? Hoeveel verschil komt er dan? Dan mag je als foutmarge zien, en daarmee zul je vermoedelijk al dit onderscheid teniet doen.

Veel van het commentaar op pagina 2 is uiterst dubieus. Vermoedelijk zijn de verschillen sowieso niet statistisch relevant... Maar als ik dan dit zie:

Door de bank genomen lijken zowel AMD- als Intel-systemen optimaal te presteren met acht gigabyte geheugen in de slots. De verschillen zijn echter, met de geheugensnelheid op 1600MHz en de timings gelijk, zeer gering

Daarbij vraag ik me toch echt af of we naar dezelfde data kijken?! Want als de verschillen relevant zijn, en je een uitspraak wilt doen, dan zie je toch echt dat op die pagina hoofdzakelijk de 2x 4GB configuratie bovenaan staat, en niet de 2x 8GB!

Waarom is de conclusie niet dat de hoeveelheid geheugen niet relevant is voor de gebruikte tests?

[ Voor 64% gewijzigd door Verwijderd op 18-03-2014 11:06 ]

dinsdag 18 maart 2014 21:33

Acties:

Osiris

Het gebrek aan statistische onderbouwing is sowieso afwezig in het ICT-wereldje heb ik het idee. As in, da's niet alleen in deze review of Tweakers überhaupt 't geval.

Je wilt eigenlijk niet alleen statistische significantie weten als er claims gemaakt worden, maar sowieso:

n=?;
μ=? (even er vanuit gaande dat zulke testen een normale verdeling oplevert);
σ=?.

Then again snap ik ook wel dat hoogst waarschijnlijk slechts een kleine minderheid om zulke getallen zit te springen..

woensdag 19 maart 2014 11:40

Acties:

Jeroenneman

Pre-order/Early Acces: Nee!

Eigenlijk zou het helemaal niet zo moeilijk moeten zijn.

Je vult gewoon alle metingen in SPPS of SAS in, laat daar een T-test of rank sum test op los en dan weet je gelijk de significantie en het verschil.

Dan weet je in ieder geval zeker of een verschil ook echt een verschil is.

| Old Faithful | i7 920 @ (3,3Ghz) / X58 UD4P / GTX960 (1,550Mhz) / CM 690 | NOVA | i5 6600K (4,4Ghz) / Z170 Pro Gaming / GTX 960 (1,500Mhz) / NZXT S340

woensdag 19 maart 2014 13:52

Acties:

Nonstop decay

Topicstarter

Jeroenneman schreef op woensdag 19 maart 2014 @ 11:40:
Eigenlijk zou het helemaal niet zo moeilijk moeten zijn.

Je vult gewoon alle metingen in SPPS of SAS in, laat daar een T-test of rank sum test op los en dan weet je gelijk de significantie en het verschil.

Dan weet je in ieder geval zeker of een verschil ook echt een verschil is.

Dat is ook weer waar. Een T-test kun je zelfs in Excel doen, toch? Dan zou het een éénmalige inverstering zijn om een leuke tabel op te stellen, waar vervolgens alle testresultaten mee getoetst kunnen worden. En als SPSS te duur is, is R misschien een leuke manier? (http://www.r-project.org/) Kost ook weer een beetje tijd om het te leren, maar als dat er eenmaal inzit, kun je snel en makkelijk statistische toetsen uitvoeren.

woensdag 19 maart 2014 14:44

Acties:

Verwijderd

Je hebt helemaal geen speciale software nodig. Excel kan ook prima alles wat je wilt. En bij de kleine aantallen herhalingen van de test, is het ook voldoende om gewoon de grootste afwijking als marge te nemen.

Uiteindelijk gaat het er niet om om een wetenschappelijk artikel te schijven, maar om de cijfers en vooral conclusies iets beter te onderbouwen.

woensdag 19 maart 2014 16:38

Acties:

willemdemoor

Redacteur

Uiteraard zit er een goed punt in jullie reacties: de resultaten zijn niet statistisch onderbouwd. We draaien alle tests slechts drie keer en middelen de resultaten. De spreiding is in die drie tests over het algemeen zeer gering. We schrijven geen wetenschappelijke artikelen: we draaien de tests op slechts 1 testsysteem en doen dat geen 100 keer. Gezien de kleine verschillen en de daaruit volgende conclusie dat de geheugenconfiguratie alleen bij gebruik van de processor graphics/ingebouwde gpu van grote invloed is, denk ik dat we voldoende slag om de arm houden.
Maar voor de volgende keer nemen we de punten uiteraard mee en zal ik meer met de onderbouwing doen

woensdag 19 maart 2014 17:51

Acties:

Osiris

willemdemoor schreef op woensdag 19 maart 2014 @ 16:38:

We schrijven geen wetenschappelijke artikelen: we draaien de tests op slechts 1 testsysteem en doen dat geen 100 keer.

Desalniettemin is de doelgroep "Tweakers" en die zullen ongetwijfeld nóg meer smullen van nóg meer cijfertjes!

Statistiek is immers "techniek met getalletjes" sort to say

Vraag me af of je met 3 samples überhaupt ooit iets significants gaat krijgen uit een Mann-Whitney U-test. (Een t-test zal sowieso niet mogen gok ik met zo weinig samples, aangezien je niets kunt zeggen over je distributie..?) Uit wat gepriegel met wat waarden rond de in het artikel genoemde gemiddelden met n=3 krijg ik alleen maar een p van 0.100 (exact 2-tailed, asymptomatisch zal je niet mogen gebruiken met n=3 lijkt me.)

Hoe groot de spreiding ook is, ook als 't 3x dezelfde getallen zijn

[ Voor 37% gewijzigd door Osiris op 19-03-2014 18:27 ]

vrijdag 4 april 2014 21:12

Acties:

DrSnuggles

Terrapin Station

Hier de R-code. Omdat er veel te weinig data punten zijn om een parametrische statistische test te doen, is het verstandiger om het non-parametrisch te doen. We kunnen echter niet zo maar ordenen op grootte, gezien het bij de eerste benchmark draait om welke combinatie de laagste score haalt, terwijl bij de tweede de hoogste score als winnaar uit de benchmark komt.

Dus afhankelijk van het doel van de benchmark ordenen en daar vervolgens een ANOVA op los laten is in dit geval het netst (bij mijn weten).

code:

## Data
meta <- data.frame(type = as.factor(c("Intel", "AMD", "Intel", "AMD")), 
                    target = c("lower", "lower", "higher", "higher"))
dat <- as.matrix(data.frame(GB4 = c(33.5, 81.1, 3.187, 3.185), 
                            GB8 = c(31.7, 80.9, 3.227, 3.226), 
                            GB16 = c(32.3, 83.1, 3.232, 3.205)))            
## Ranking          
for(i in 1:nrow(dat)){
    if (meta$target[i] == "lower"){
        dat[i, ] <-  rank(dat[i, ])
        next
    } 
    if (meta$target[i] == "higher"){
        dat[i, ] <- rank(1/dat[i, ])
        next
    } 
}

## Reshape data for aov()
dat.long <- data.frame( rank = as.numeric(dat), 
                        size = as.character(sapply(colnames(dat), function(x) rep(x, 4))),
                        type = as.character(rep(meta$type, 3)))
    
## Statistical Analysis (custom Kruskal Wallis Test)                
summary(aov(rank ~ size, dat.long))

Met de volgende uitkomst:

code:

1
2
3

            Df Sum Sq Mean Sq F value Pr(>F)  
size         2    4.5  2.2500   5.786 0.0242 *
Residuals    9    3.5  0.3889

Waar uit blijkt dat, met een P-waarde van 0.0242, de hoeveelheid geheugen (size) een significant effect heeft op de uitkomst van deze benchmarks, wanneer de arbitraire grens van P = 0.05 wordt aangehouden.

Learn something new every day.