Interpolatie grafieken

Pagina: 1
Acties:

Acties:
  • +1 Henk 'm!

  • Sickboy22
  • Registratie: Juli 2009
  • Laatst online: 21-06 15:10
In de grafieken die tegenwoordig bij artikelen geplaatst worden, lijkt het alsof er bij de interpolatie van de meetpunten fouten in de grafiek sluipen. Zoals in deze grafiek die bij het SSD topic van 13 maart hoort. Met name de kuilen en bultjes die aan de uiteinden van een vlak stuk verschijnen lijken geen basis te hebben in de meetgegevens. Bijvoorbeeld tussen Q3 2013 (1000) en Q4 2013 (1000) zit een piek die niet uit de meetgegevens naar voren komt ( er vanuit gaande dat er per kwartaal een meting is geweest).
Je kunt je afvragen of het überhaupt verantwoord is om hier een continue grafiek van te maken (lijndiagram/polygoon), maar een differentieerbare continue grafiek ('glad' door de meetpunten, geen sprongen in de helling) lijkt me helemaal niet goed bij de data passen. Logischer hier was geweest om een staafdiagram te gebruiken.

Acties:
  • 0 Henk 'm!

  • Dorus
  • Registratie: Juni 2005
  • Nu online
Een lijngrafiek kan heus wel, echter vloeiende lijnen zijn echt ondingen. Beter is om rechte lijnen te gebruiken, of idd. om zo te interpoleren dat je geen uitschieters boven of onder het meetpunt hebt.

Acties:
  • 0 Henk 'm!

  • willemdemoor
  • Registratie: Januari 2008
  • Niet online

willemdemoor

Redacteur
De grafiek is gebaseerd op pricewatch data van ssd-views per kwartaal. Ik denk niet dat je dat moet interpreteren als exacte waarden maar als trend. De hobbeltjes komen overigens van Intel ssd's die in die periode met wat vreemde capaciteiten leverbaar waren. We hebben zo veel mogelijk gekke data gefilterd maar dit zijn meer artefacten.
Nogmaals, het zijn trendlijnen, dan oogt een vloeiende lijn wat mooier imho 😀

Acties:
  • 0 Henk 'm!

  • rjm05
  • Registratie: November 2013
  • Laatst online: 02-05 00:43
Dan zou het wel chique zijn om te vermelden dat het eigenlijk 'guides to the eye' zijn i.p.v. de echte data. Of, nog beter, de datapunten weergeven en dan daadwerkelijk de vloeiende lijn als guide.

Acties:
  • +1 Henk 'm!

  • Sickboy22
  • Registratie: Juli 2009
  • Laatst online: 21-06 15:10
Bij een trendlijn is het gebruikelijk om de data die geïnterpoleerd wordt ook weer te geven. Daarnaast volgen trendlijnen vaak het (veronderstelde) onderliggende verband waarbij met statistisch verantwoorde technieken (kleinste kwadraten methode bijvoorbeeld) een zo goed mogelijk passende lijn wordt gegenereerd die de algehele trend beschrijft. Als je lijn door de meetpunten forceert en daarmee een vertekend beeld geeft ben je dus allesbehalve een trendlijn aan het maken. Een trendlijn hoeft juist niet (per se) door de meetpunten te lopen maar past zo goed mogelijk bij de gegeven punten.

De opmerking
De hobbeltjes komen overigens van Intel ssd's die in die periode met wat vreemde capaciteiten leverbaar waren.
lijkt me volledige onzin want de hele grafiek stikt van de lokale minima en maxima terwijl de data constant blijft (nog een voorbeeld: Q4 2010 (256), Q1 2011 (256), Q2 2011 (256) en Q3 2011 (256), toch best hobbelig voor een constante waarde...)
Los van de wiskunde lijkt het me ook sterk dat tijdens een gedeelte van een kwartaal een SSD leverbaar is geweest van pak-em-beet 1050GB. En ook in Q3 2015 - Q4 2015, en Q1 2013 - Q2 2013 enzovoorts enzovoorts.

Misschien doe ik er wel te moeilijk over hoor, want de grafiek schetst inderdaad een beeld (alhoewel in mijn optiek niet helemaal juist) en in die hoedanigheid is het een nuttig stukje visualisatie ter ondersteuning van het verhaal, maar in deze vorm kan ik deze grafieken slechts gebruiken als voorbeeld van hoe het niet moet als ik datavisualisatie aan het onderwijzen ben.

Acties:
  • 0 Henk 'm!

  • willemdemoor
  • Registratie: Januari 2008
  • Niet online

willemdemoor

Redacteur
Nou ja, bij de grafieken staat netjes 'capaciteitsontwikkeling danwel prijsontwikkeling op basis van pricewatchdata'. Dat lijken met voldoende woorden om duidelijk te maken dat het om trends gaat. Sowieso is de data dus 'echte data' gebaseerd en als je wil mag je zelf de databasedump gaan doorpluizen :)
Maar het gaat me enerzijds te ver om te zeggen dat de getoonde prijs en capaciteit de enige juiste maximale capaciteit en prijs is die in een gegeven kwartaal verkrijgbaar was en anderzijds vind ik alles van dubbele disclaimers en caveats nogal overdreven voor een stukje grafiek dat illustratief bedoeld is bij een stuk tekst.

En ja Sickboy22, als ik de beschikking had over een nette manier om spss-uitvoer of andere statistische tools in een review te krijgen zou ik dat misschien wel willen doen, maar we moeten roeien met de riemen die we hebben, en in dit geval is dat datawrapper....

Acties:
  • +1 Henk 'm!

  • Sickboy22
  • Registratie: Juli 2009
  • Laatst online: 21-06 15:10
Helder, ik snap dat het slechts een klein deel is van een verder erg interessant artikel. Zoals ik al aangaf ondersteunt het inderdaad het verhaal door een beeld te schetsen van de capaciteit van SSD's door de jaren heen.
Persoonlijk zou ik een andere afweging hebben gemaakt ten aanzien van de gekozen soort grafiek, maar ik zal nu verder ophouden met zeuren :)
Zodra efficiëntie, productiviteit en pragmatisme om de hoek komen kijken, worden er andere afwegingen gemaakt.

Acties:
  • 0 Henk 'm!

  • CMSTRR
  • Registratie: Mei 2013
  • Laatst online: 27-04-2024

CMSTRR

HP Elitebook 820 G3

Niets is zo gevoelig als de prijzen van computeronderdelen.

Acties:
  • 0 Henk 'm!

  • Dorus
  • Registratie: Juni 2005
  • Nu online
willemdemoor schreef op zondag 13 maart 2016 @ 13:20:
Nou ja, bij de grafieken staat netjes 'capaciteitsontwikkeling danwel prijsontwikkeling op basis van pricewatchdata'. Dat lijken met voldoende woorden om duidelijk te maken dat het om trends gaat. Sowieso is de data dus 'echte data' gebaseerd en als je wil mag je zelf de databasedump gaan doorpluizen :)
Maar het gaat me enerzijds te ver om te zeggen dat de getoonde prijs en capaciteit de enige juiste maximale capaciteit en prijs is die in een gegeven kwartaal verkrijgbaar was en anderzijds vind ik alles van dubbele disclaimers en caveats nogal overdreven voor een stukje grafiek dat illustratief bedoeld is bij een stuk tekst.

En ja Sickboy22, als ik de beschikking had over een nette manier om spss-uitvoer of andere statistische tools in een review te krijgen zou ik dat misschien wel willen doen, maar we moeten roeien met de riemen die we hebben, en in dit geval is dat datawrapper....
Welke databasedump bedoel je? Ik heb de grafiek even in paint gezet, en met de muis over de datapunten in te grafiek gegaan, en deze aangekruist in de grafiek.

Zo is de waarde voor Q2 en Q3 2011 beide 256, toch zit er een bobbel naar beneden tussen.
Vervolgens is 2011 Q4 tot en met Q1 2013 512, maar zit er een bobbel omhoog tussen Q4 2011 en Q1 2012, en nogmaals een bobbel naar beneden tussen Q1 en Q2 2013.
Zelfde verhaal bij Q3 2013 tm Q4 2015. Allemaal 1000 maar toch begint het weer met een bobbel naar boven en eindigt het met een bobbel naar beneden.

SSDGrafiek

Die dip, tot bijna 900 in Q3 2015 lijkt mij zeer onwaarschijnlijk.

Overigens, bij de gemiddelde prijs werkt deze trendlijn redelijk goed. Bij de maximum prijs is de grafiek echter zo vlak, met grote sprongen, dat een dergelijke vloeiende lijn stomme uitschieters krijgt.

[ Voor 5% gewijzigd door Dorus op 13-03-2016 16:05 ]


Acties:
  • 0 Henk 'm!

  • Tijl
  • Registratie: Oktober 2002
  • Laatst online: 12-07 15:05
Dit viel mij ook al eerder op bij andere artikelen. De 'bobbels' liggen namelijk tussen twee datapunten in. Het lijkt erop alsof er een cubic interpolation wordt toepast, wat dit soort effecten kan hebben.
Zie ook Wikipedia: Monotone cubic interpolation , waar dit effect wordt beschreven (of om precies te zijn een variant van de interpolatiemethode behandeld die dit soort effecten voorkomt)

Acties:
  • 0 Henk 'm!

  • Marce
  • Registratie: Oktober 2007
  • Laatst online: 10-07 16:12

Marce

Het is Marc met een C!

Laat ik me ook nog even in de discussie mengen.. Het eerste wat in mij opkomt als ik de grafieken zo bekijk is dat waardes in beide richtingen gefilterd worden met een 2e orde laag doorlaat filter wat zorgt voor een beetje overshoot.
Het bekijken van de waardes gaat goed omdat die in een tabel staan en de software die de grafiek tekent nog een extra filtering doet voor de mooie grafiekjes.

Geen idee hoe dit geïmplementeerd is en of dit makkelijk aan te passen is, het is ook maar een klein puntje maar het kijkt wel raar.

Acties:
  • 0 Henk 'm!

  • gekkie
  • Registratie: April 2000
  • Laatst online: 23:23
http://www.d3noob.org/201...ng-out-lines-in-d3js.html hier staan ook wel wat mooie voorbeelden van de effecten van verschillende interpolatie algoritmen in d3js (waaronder ook de monotone).
(waarbij monotone voor mij duidelijk de beste balans geeft tussen smoothing en toch zo getrouw mogelijk de datapunten benaderen zonder artefacts)

Hmm de graph lib die tweakers gebruikt maakt zo te zien gebruik van een ander type splines, maar ook hier zijn er meerdere interpolatie algoritmen te kiezen. Alleen zijn de voorbeelden wat onduidelijker voor het onderhavige geval: http://visjs.org/examples/graph2d/06_interpolation.html

[ Voor 56% gewijzigd door gekkie op 14-03-2016 23:25 ]

Pagina: 1