[FP]Benchmarks draaien.... - Geachte redactie

dinsdag 15 juli 2003 18:59

Acties:

Mythology

Topicstarter

Ik kom nog steeds met bakken geld op de FP rondkijken wat voor moderne rommel ik zou moeten nemen en wat dan het snelste is. Echter, ik zie ook steeds vaker optimalisaties voor software ontstaan die uiteindelijk een vertekend beeld geven, zoals oa nVidia flikt met 3dmark2003. Een beter voorbeeld is de officemark, die door de jaren heen een P4 (SSE2) beter beoordeeld dan een Athlon. Was vroeger de Athlon beter, nu is dat de P4.

Nou zag ik op de theinquirer.net een editorial staan met een idee dat het probleem zou oplossen: blinde benches. Ik vraag mij af of dat niet iets is voor Tnet.

De truc was dat er voor bepaalde producten een soort Suite werd samengesteld met software die dan buiten de gangbare bekende paden wordt getest. Dus niet Unreal2 tantalus, maar dan zelf een level in elkaar draaien oid en deze een nachtje laten draaien. Of nog beter, zelf een spel kiezen dat enig werk van hardware vraagt en uiteindelijk de hardware gelijkwaarig kan laten vergelijken.

De tweede truc was dat deze suite niet openbaar werd, maar dat het gewoon een getal uitpoept waar je uiteindelijk mee vergelijkt; dan gaan bedrijven alles optimaliseren ipv alleen die Game met die specifieke level.

Op deze manier kan ik, als Tnetbezoeker, iig een beter beeld vormen welke hardware welke objectieve prestaties neerzet en heb ik een reden om naar Tnet te gaan, want tomshardware, anandtech enz enz weet ik ook wel te vinden en die testen toch vrijwel op dezelfde manier.

De winst voor Tnet is iig dat je andere testen hebt en dus potentieel meer unieke bezoekers trekt.... en het wordt pas echt leuk als een nVidia-driver bv 20% meer scoort in 3dmark en de Tnetbench gewoon op 0.047 % winst komt; dan belazerd nVidia de boel en heeft Tnet een primeur.

Zou dit kunnen? Met Harde-schijven en Raid-setups zie ik al zoiets gebeuren, maar de winst in mainstream-hardware lijkt me groter. Of trap ik een reeds ingetrapte deur in?

dinsdag 15 juli 2003 19:09

Acties:

Femme

Hardwareconnaisseur

Official Jony Ive fan

Ik vind het zelf een interessant idee, alleen is het moeilijk uit te voeren. In de eerste plaats omdat we mensen nodig hebben die hardware willen gaan benchmarken en in de tweede plaats omdat het samenstellen van eigen benchmarks niet altijd even eenvoudig is. Veel games kunnen wel een reproduceerbare test draaien waar mbv een ingebouwde framerate teller of een proggie zoals fraps (zo heet 't geloof ik) de framerate gemeten kan worden.

Het maken van (multi-tasking) applicatiebenchmarks zoals Winstone en SysMark is veel moeilijker omdat er voor zover ik weet geen programma's zijn waarmee je de handelingen van een applicatie in een script kunt opnemen en weer opnieuw kunt afspelen. Voor veel serverapplicaties zijn wel tools beschikbaar om de prestaties te meten (bijv. apachebench voor apache). Persoonlijk zou ik het wel interessant vinden om een Apache en MySQL benchmark te bouwen (geen suffe onrealistische benchmark waarbij de prestaties van één zware query worden gemeten, maar eentje die prestaties meet tijdens een realitsche wordload met honderden queries tegelijkertijd).

Voor Photoshop, diverse 3D modelling software en CAD-programma's kunnen vaak ook benchmarks gemaakt worden (bijv. tijd meten die het kost om een scene te renderen). Dus met een beetje wil kun je een heel eind komen voor alles behalve multi-tasking applicatiebenchmarks.

dinsdag 15 juli 2003 19:21

Acties:

Wouter Tinus

Whee!

Het is wel een interessant idee, maar toch denk ik dat veel tweakers met een "gesloten" suite zullen twijfelen aan de manier waarop gebenchmarked wordt, en of het soort applicaties dat wordt meegenomen in de test wel overeenkomt met de dingen die ze zelf gebruiken. Ik zou het dus gewoon open houden. Dat is trouwens ook een probleem van één cijfer uit een hele serie tests laten komen: hoe zwaar weegt test x mee. De houdbaarheid van zo'n test zal altijd laag zijn door verschuivende verhoudingen, terwijl hij eigenlijk wel een aantal jaar mee moet kunnen.

[ Voor 3% gewijzigd door Wouter Tinus op 15-07-2003 19:22 ]

Professioneel Hyves-weigeraar

woensdag 16 juli 2003 14:53

Acties:

Cookie

Een 'eigen testsuite', met daarin een aantal uiteenlopende praktische en reëele tests die realworld eigenschappen benchen zou een prima zaak zijn

. Echter, waarom zouden we vervolgens een dergelijke suite, die uiteenlopende nuttige eigenschappen test, gesloten gaan maken? Ten eerste valt niet te verwachten dat op korte termijn bedrijven zoals nVidia, of andere grote hardwarejongens, serieus gaan 'cheaten' of proggen om hoog in die "wereldberuchte Tweakers.net-performancetest" te gaan scoren; zó ver reikt onze invloed op de hardwarefabrikanten denk ik nou ook weer niet

. Ten tweede zou in het geval dát een bedrijf serieus gaat proberen in 'onze suite' winst te boeken dit vanwege die uiteenlopende samenstelling daarvan alleen maar gunstig zijn, omdat die suite nou juist niet afhankelijk zou moeten zijn van een of andere detailscore, maar een opeenstapeling/dwarsdoorsnede van praktijktests zou (moeten) zijn.

Door de suite open te houden, en te laten zien hoe je aan 1 totaalscore komt middels een gekende weging, kunnen bezoekers daarnaast niet alleen onze score tegen het licht houden, en mogelijke 'cheatscores' eruit filteren, maar ook hun eigen weging maken. Niet dat ik per se de Consumentenbond als voorbeeld wil nemen voor pc- en hardwaretests, maar ze laten vaak wel zien hoe ze tot hun eindoordeel zijn gekomen, en laten lezers ook de mogelijkheid eigen wegingen toe te passen.

[ Voor 3% gewijzigd door Cookie op 16-07-2003 14:55 ]

Never trust a computer you can't throw out a window [Steve Wozniak]