Allereerst even een update van waar we nu staan in het proces van veranderingen.
- We hebben inmiddels een aantal processors getest met de Dark Rock Pro 4 voor de temperatuurmetingen. We zijn op dit moment de data aan het analyseren, maar het ziet er naar uit dat we dit binnen afzienbare tijd kunnen integreren in ons vaste protocol
- We zijn druk bezig met onze testprocedure pagina's. Hierop zal onder andere te vinden zijn welke versienummers van benchmarks we draaien, en een uitgebreide omschrijving van alle tests die we in ons protocol hebben. Gezien we op dit moment ook nog bezig zijn met de veranderingen in de testprocedures is dit nog een work in progress.
- We zijn de afgelopen weken enorm druk geweest met het hertesten van verschillende processors
- De 0.1% lows zijn geïntegreerd in onze testprocedure voor videokaarten / 3d-chips
- We hebben bekeken of bestaande benchmarks op een makkelijke manier geschikt gemaakt kunnen worden voor langerer benchmark runs. Helaas blijkt dat dit voor veel benchmarks niet makkelijk mogelijk is. Een klein aantal is hier wel voor geschikt. We gaan kijken of we voor de games waar de bestaande benchmarks niet toereikend zijn nieuwe benchmarks kunnen ontwikkelen waarbij we wel makkelijk een lange run kunnen benchmarken. Een alternatief is kijken naar andere games om te benchmarken.
- Inmiddels is de driver update test verschenen, ik las al wat feedback daarop van @-The_Mask- , ik zal hieronder daar op reageren.
Dan de inhoudelijke reactie op de posts tot nu toe. Het valt me op dat eigenlijk alleen @
-The_Mask- nog post de afgelopen weken, wij vinden dat enorm jammer. Ik hoop dat ook de rest van de volgers van dit topic hun stem willen laten horen.
-The_Mask- schreef op woensdag 22 april 2020 @ 15:01:
[...]
Maar dat moet zo zijn. De tests moeten een realistisch beeld geven van de de praktijk. Als dat niet het geval is dan zijn je tests niet goed. Dat heeft niks met aannames nodig, het heeft te maken met het goed uitvoeren van de tests.
Eens! De verwachting is dan ook zeker dat we de duurtest kunnen laten varen. Maar laten we eerste eens een review met beiden doen, dan kunnen we conclusies trekken.
Zoals ik eerder heb aangegeven mogen sommige CPU's nu korte tijd twee tot drie keer zoveel verbruiken dan dat ze continu mogen verbruiken. Als je dan een test doet die in de praktijk lang duurt dan moet de test ook lang duren. Het moet dan niet zo zijn dat de test die je doet dan kort is, waardoor je een foutmarge krijgt van ergens tussen de 100% en 200%. Je wil namelijk naar een foutmarge van 1% of maximaal 2%.
Ik denk dat er hier simpelweg een verschil is in wat jij denkt dat we willen meten, en wat wij daadwerkelijk willen meten. Wij willen een gemiddeld verbruik meten waarmee je iets kan zeggen over wat een processor in de praktijk onder load zal verbruiken. Je hebt helemaal gelijk dat dit niks zegt over wat een processor in 1 ms zou kunnen verbruiken. Alhoewel dat ook zeker interessant is, proberen we dat op dit moment niet te meten.
Verreweg meeste mensen hebben geen idee wat ze willen, dus een pol zal een extreem vertekend beeld geven. Er zijn oneindig veel voorbeelden hier van. Eén van de bekendste voorbeelden van de laatste jaren is bijvoorbeeld de iPhone of gewoon de smartphone in het algemeen. Hoeveel mensen vroegen om een telefoon met een groot scherm, waarmee je alles kan en simpel apps kan installeren vanuit een app store? Volgens mij was hier geen enkele serieuze vraag na, maar wie wil er nu zonder? Of kan er überhaupt een dag zonder?
Had Apple in die tijd dus een simpele poll gemaakt met willen jullie een kleinere mobiel of juist een veel grotere dan was de consensus waarschijnlijk kleiner geweest. Had je de pol echter extreem uitgebreid gedaan waarbij je ging uitleggen wat er allemaal mogelijk zou zijn met een smartphone en had je mensen verplicht het hele verhaal te lezen en na te denken waar ze op stemmen. Dan zou de uitslag ongetwijfeld heel anders zijn.
Dat iemand iets wil wat jij niet wilt, betekent niet meteen dat het niet nuttig kan zijn. In je eigen voorbeeld geef je dit eigenlijk ook al aan. Op moment dat een deel van onze gebruikers aangeeft dat ze dit toch interessant vinden, en het kost ons weinig tijd, zie ik niet waarom we dit niet kunnen toevoegen. Als jij dit dan niet interessant vindt, dan hoef jij daar natuurlijk geen conclusies aan te verbinden. Wij zullen dat ook niet doen, gezien we al hebben aangegeven dat wij de test zelf ook niet veel vinden zeggen.
Zelfde geld voor reviews. Als je nu gaat vragen wat ze vinden van de reviews zal ongetwijfeld het grootste deel zeggen dat ze goed zijn. Maar ga je echter uitleggen wat er allemaal verkeerd is en waarom de reviews eigenlijk niet goed zijn dan ga je toch echt een hele andere mening krijgen.
Dus dan kun je nu wel heel democratisch alles erin drukken. Maar uiteindelijk is dat toch niet wat men wil als blijkt dat het een heel vertekend beeld geeft. Je hebt daarnaast ook te maken met mensen die heel vluchtig eroverheen lezen en de plaatjes bekijken. Die zullen dan een begeleidende tekst missen waarin staat dat het geen realistische beeld weergave is. Ook moet je rekening houden met dat het allemaal niet te lang wordt. Want ik kan nog wel 10 andere tests verzinnen die er ook in kunnen, maar het kan niet oneindig lang worden. Je wil juist het meest nuttige, zo goed als mogelijk, zo uitgebreid mogelijk, maar toch ook weer bondig en niet te lang.
Samengevat wil je de mening van anderen dan moet je er wel voor zorgen dat die persoon ook alle informatie heeft en ook begrijpt. Anders ga je nooit een goede mening krijgen van die persoon.
Er zit natuurlijk een groot verschil tussen 'dit kan niet toegevoegd worden want ik vind het niet interessant' en 'x is interessanter, dus dat kan je beter toevoegen'. Met dat laatste kan ik iets, met dat eerste niet. Als er tests zijn die interessanter zijn, zullen we moeten kijken of we die niet beter kunnen toevoegen. We hebben overigens nergens aangegeven dat we zo'n begeleidende tekst niet zouden schrijven, dus er nu al vanuit gaan dat dat niet gaat gebeuren is een beetje voorbarig.
[...]
Dus het was niet betrouwbaar, want zoals je zelf al aangaf geeft een halve centimeter dus een groot verschil. Dat betekent ook dat een centimeter naar links of rechts ook een groot verschil maakt. En een videokaart met drie fans is dus waarschijnlijk ook in het nadeel in vergelijking met één met één of twee fans omdat de afstand tussen de fan kleiner is. Dit geeft dus duidelijk aan dat jullie wel een betere geluidsbox nodig hebben en dat zoals ik al aangaf de huidige metingen onbetrouwbaar zijn.
Een centimeter naar links of rechts hebben we getest, dit maakte nauwelijks verschil. Dat neemt niet weg dat ik het met je eens ben dat de meting beter op 30cm, ons maximum in de huidige box, kunnen testen. Dat gaan we dan ook doen.
[...]
Ik heb over de jaren genoeg mensen gezien die zelf een geluidsdichte box hebben gemaakt die ook op 17dB uitkwam of zelfs lager, dus dat is echt niet zo bijzonder. De voedingsreviewer van TechPowerUp/Tomshardware heeft een speciale kamer gebouwd om tot 6dB te gaan, dat is pas stil. Daarmee zeg ik niet dat je dat moet doen. Maar een grotere geluidsdichte box maken is in deze tijd waar iedereen thuis zit natuurlijk perfect te doen.
Iedereen thuis zit? Was het maar zo'n feest! Het is op dit moment, zoals al eerder gezegd, enorm druk. Ook durf ik te betwijfelen dat dit zo makkelijk is als jij zegt dat het is. We hebben inmiddels contact gehad met verschillende bedrijven die dit soort ruimtes verkopen, deze voldoen allen niet aan onze eisen. We gaan zeker verder kijken, maar om te stellen dat iets 'niet zo bijzonder' is.. nee.
[...]
Videokaarten met stock koeler zijn gewoon te koop, sterker nog in de eerste weken na launch zijn het regelmatig de enige versie die je kunt krijgen. Dan is het toch interessant om te weten wat de geluidsproductie is? Dat het niks zegt over andere videokaarten met dezelfde chip lijkt mij logisch, dat is immers een andere videokaart. Geluidsmetingen ga je pas overslaan op het moment dat je die versie niet kan kopen. Maar dan moet je je afvragen hoeveel nut het nog heeft om een review te maken van een product wat niet te koop is en wat nooit te koop komt.
Dat is zeker interessant! Maar dan test je de reference kaart dus als videokaart, niet als 3d-chip. Dat doen we ook regelmatig, als we verschillende videokaarten met elkaar vergelijken. Als je de
chip wilt testen, wil je de beperkende factor juist niet bij de koeling hebben liggen. Als je de
videokaart wilt testen, wil je juist dat je de koeling (en dus het geluid) wél meeneemt.
[...]
Als je met bestcase ssenario bedoeld, onrealistisch in vergelijking met de praktijk. Dan vind ik inderdaad dat je dat niet met elkaar kan vergelijken. Zie het stukje van wat ik eerder schreef over de CPU. Als een CPU of videokaart veel meer mag verbruiken over korte tijd, terwijl als je die toepassing in praktijk gebruikt je zo maar een uur bezig bent dan krijg je extreem grote afwijkingen in je meting. Als je dat vergelijkt met een CPU/videokaart die dat niet doet dan kan de ene dus dubbel zo snel lijken, terwijl die in de praktijk wel eens voor jouw langzamer kan zijn.
Daarmee zeg ik dus niet dat het niet nuttig is wat de fabrikanten doen met hun dynamische klokfrequenties, want dat is het wel degelijk. Het is alleen wel iets waar je rekening mee moet houden tijdens het testen. De ene toepassing is namelijk erg gebaat bij die extra prestaties voor korte tijd. Terwijl de andere er niks aan heeft en zo moeten je tests dus ook worden uitgevoerd.
Misschien is een voorbeeld hierbij handig. Stel, je hebt twee reference kaarten, 1 van AMD en 1 van Nvidia. Het reference model van AMD heeft zijn koeling slecht op orde, die van Nvidia niet. Alle fabrikanten die een kaart uitbrengen met een aftermarket koeler hebben de koeling echter perfect op orde.
De chip komt uit, en wij maken een review. Stel, wij zouden de review gemaakt hebben gebaseerd op lange tests, waarin we de koeling meenemen, dan concluderen wij dat de chip er niet goed vanaf komt in vergelijking met de Nvidia kaart. Dit terwijl de aftermarket kaarten met diezelfde AMD chip wellicht beter presteren dan de Nvidia kaarten.
Dit is waarom we bij een nieuwe chip deze testen als 3d-chip, met korte benchmarks waarin de koeling bijna geen factor is.
[...]
Dat klopt je kunt beter 10 goed en uitgebreide tests doen dan 20 slechte en afgeraffelde in de tijd die beschikbaar is. Je kunt niet een oneindig aantal tests doen. De tijd is maar beperkt, dus de tijd die je hebt wil je zoveel mogelijk nuttig besteden. Ik zou zeggen doe wat minder tests met meer games.
Nu wordt elke game met elke videokaart 6 maal getest, als je dan minder tijd kwijt wil zijn is het logisch om hier flink te schrappen na bijvoorbeeld twee of drie tests. In plaats van het aantal games van 10 naar 5 terug brengen. En zorg dat je ook de nuttige tests pakt. Een low-end videokaartje testen in de zwaarste games op 4K Ultra zodat die 10fps heeft is niet nuttig. Zelfde geld voor de snelste videokaart testen op full HD medium instellingen. Het enige wat je zal meten is een CPU bottleneck. De prestaties van de videokaart zul je echter niet meten.
Helemaal mee eens, dit nemen we zeker mee!
[...]
Ik zie het nut niet echt omdat iedere situatie weer anders is. Het enige wat je mensen kunt vertellen is dat het handig is om de videokaart driver regelmatig te updaten. Met name voor mensen die de nieuwste games spelen, voor oudere games is het dan weer minder nuttig. Je kunt dan wel een test doen, maar dan zul je niet zien dat je net de scenarios test waarbij het weinig verschil maakt, terwijl je uiteindelijk nog niet 0,001% test van wat mogelijk is.
Als het bijvoorbeeld voor 50% van de mensen nuttig zou zijn de videokaart driver regelmatig te updaten en voor de andere 50% is het niet echt interessant, dan zegt jouw test die 0,001% van de scenarios test natuurlijk bijzonder weinig. Voor hetzelfde vallen alle tests juist of negatief of juist positief uit. Maar ja dan zegt niks over 99,999% van wat je niet test.
Natuurlijk is iedere situatie anders, het zal inderdaad per geval verschillen of het veel voordeel geeft. Dat neemt niet weg dat het interessant is om te zien wat het verschil in performance is tussen verschillende drivers, lijkt me.
[...]
Met een goede digitale DC meter en goede tests kun je tijdens de normale tests ook gewoon het verbruik meten en kom je tot een veel betere performance/watt. Als je één test doet en die draait een stuk beter op product x dan op product y dan kun je een nogal scheve verbruiksmeting krijgen.
Op dit moment doen we twee verbruiksmetingen met een hoge belasting. De ene is terwijl we een Cinebench R20 run doen, de andere is tijdens onze Premiere Pro benchmark. We zouden dus al een performance / watt iets uit kunnen rekenen op basis van deze twee benchmarks, lijkt me een mooie toevoeging.
[...]
Geen idee ik heb mij dus nergens in verdiept. De bedoeling was dat jij dat zou doen.

Dit zijn dingen die mij gewoon direct opvallen. Lijkt mij dat als je zelf de testsetup in elkaar zet, dat dit ook iets is wat opvalt. Ik kan je dan ook niet precies vertellen hoe je het moet doen, want daarvoor moet je je er echt in verdiepen en dat is iets wat maanden kost.
Dat hebben we ook gedaan, maar in eerste instantie toch de afweging gemaakt op basis van wat ik eerder al heb gepost. We gaan vooralsnog in ieder geval met de Alphacool oplossing!
[...]
Daar moet vast wel een oplossing voor te vinden zijn. Vooral bij de wat minder dure CPU's, dat CPU's van 1000 euro of meer moeilijk gaan worden is logisch, maar CPU's van 100 euro, zeg maar de populaire CPU's daar moet vast wel wat mogelijk mee zijn.
We hebben de afgelopen paar weken 3 CPU's gekocht om onze eigen 'voorraad' uit te breiden. Ben het met je eens dat we de belangrijkste modellen gewoon zouden moeten hebben, dus dat is in gang gezet.
[...]
Je verward nu de AC Conrad meter met de DC Ali Express meter. Voor AC metingen hebben jullie sowieso al veel betere meters liggen, dus waarom zou je deze gebruiken? Voor DC metingen kun je bijvoorbeeld
dezen gebruiken.
Nee ik verwarde hem niet, ik maakte alleen een opmerking op basis van
wat je tegen PcDealer zei
Thanks voor je link! Ziet er goed uit, we gaan kijken hoe we dit kunnen integreren in onze setup

We hebben een pagina 'Testmethode', wat staat daar niet in wat je had willen weten?
Maar het ergste is nog wel dat jullie volgens mij geen idee hebben wat jullie aan het testen zijn. De inleiding gaat over welke fabrikant de betere driver ontwikkeling heeft. Het meeste er over lange termijn weet uit te persen of de slechtste driver heeft bij launch. Hoe je het ook wil noemen. Maar vervolgens testen jullie dat helemaal niet.
Daarvoor is de tijdsperiode van drie kwart jaar veel te kort, zijn er veel te weinig games getest en op veel te weinig verschillende tests per game. Je test nu 99,99999% niet en dus kun je nooit een conclusie verbinden. Bij voorbaat weet je dus al dat deze test geen kans van slagen heeft. Maar het meest onrealistische is nog wel dat jullie waarschijnlijk game versies testen die nog niet eens bestonden in de tijd van toen de driver uitkwam. Dus hoe verwacht je dat een fabrikant als nVidia of AMD optimalisaties kon doen voor een gameversie welke bijvoorbeeld pas een half jaar later uitkwam?
De test is zo opgezet dat alles behalve de driver gelijk is, dus ook de gameversie. Het is sowieso bij veel games niet mogelijk om met oude game versies te testen, gezien die games een internetverbinding nodig hebben en zonder de laatste update gewoonweg niet kunnen starten. Op moment de gameversie somehow wél zou verschillen, zou je niet meer weten of het nou de driver is die het verschil in performance teweegbrengt, of de update van de game. Deze test geeft weer wat het verschil in performance zou zijn op moment dat je op dít moment een oude driver zou hebben.
Daarom is het dus zo belangrijk om te vertellen hoe je test. Dan kan iedereen, die wil, direct zien dat de test niet klopt.
Ik vraag mij dus echt af of er überhaupt wel iets veranderd is. Hoe zien jullie dit nu zelf? Welke problemen hebben jullie in deze review allemaal opgelost? Hoe hielp deze review de lezers? Wat hebben de lezers hier van geleerd? Hoe zijn jullie tot de conclusie gekomen dat deze zeven games een representatief beeld geven? Hoe weten jullie dat de uitgevoerde tests een representatief beeld van die game?
Er zal vast nog verbetering mogelijk zijn, dat zal ik niet ontkennen. Een deel van de vragen heb ik hierboven hopelijk al beantwoord. Deze games zijn een greep uit onze standaard games die we gebruiken voor 3D-chips. Het is natuurlijk altijd beter om meer games te testen, maar je moet ergens een grens stellen. Die grens lag voor ons bij deze zeven games. Er is hier iemand fulltime 2 weken mee bezig geweest, meer dan dat leek ons niet meer te verantwoorden.
Er blijft allemaal zoveel onduidelijk dat het er gewoon op lijkt dat de hele review eigenlijk nergens over gaat. Dat het gewoon meer tijddoding was dan dat iemand er wat aan heeft. En dus niet dat men werkelijk werkt aan een nieuwe reviewprotocollen.
Als je van mening bent dat ik er naast zit dan hoor ik graag waarom je dat vindt. Wat trouwens ook helpt is wat sneller reageren. Als elke reactie vanuit jullie één maand moet duren zoals nu, dan gaat er echt nog heel veel jaren overheen voordat het ergens op begint te lijken.
Zoals ook in de comments aangegeven zijn er ook nog andere tests te verzinnen, zoals bijvoorbeeld een test waarbij we een game testen met een oude driver, met de release driver en met een driver van een aantal maanden verder. Dat zou nog een ander leuk artikel kunnen zijn, maar was niet binnen de scope van dit artikel.
Mijn 'trage' reacties de afgelopen weken hebben meerdere redenen. Een van die redenen is dat ik enorm lange dagen heb gemaakt om al het werk af te krijgen. Kijk ook even naar de tijden waarop ik mijn reacties post, meestal is dat al ver na mijn oorspronkelijke werkdag. Een andere reden is dat ik ook graag andere mensen de kans wil geven om te reageren. Ik denk dat het ook goed is om de meningen van anderen te horen. De laatste reden is dat het door de drukte ook gewoon even duurt voordat alle geplande wijzigingen zijn geïmplementeerd.