Scoresysteem Shopreviews - Pricewatch

donderdag 31 maart 2011 14:19

Acties:

Topicstarter

Volgens mij zit er een eigenaardigheid in het scoresysteem van de shopreviews. Neem bijvoorbeeld de pagina van 4launch: http://tweakers.net/shopreview/4974/4launch.html

Voor aftersales hebben ze een drie-sterren "voldoende" score, terwijl er duidelijk meer negatieve dan positieve reviews zijn: 18 zeer slecht vs 15 zeer goed, en 1 slecht vs 3 goed. In totaal dus 19 onvoldoende en 18 voldoende, waarbij "zeer slecht" zwaarder weegt en de score dus onder "voldoende" zou moeten staan.

De crux zit hem er volgens mij in dat er voor "zeer slecht" alsnog punten worden toegekend. Volgens mij gaat het zo:

Zeer slecht: 2 pnt.
Slecht: 4 pnt.
Voldoende: 6 pnt.
Goed: 8 pnt.
Zeer goed: 10 pnt.

Uitrekenend kom je dan inderdaad gemiddeld uit op een 6:

(18*2 + 1*4 + 0*6 + 3*8 + 15*10) / 37 = 5.8 ~~ 6, dus 3 sterren.

Lijkt me niet in de haak dat je wel de volle 10 punten kan geven, maar niet de lege 0 als het echt belabberd is.

donderdag 31 maart 2011 14:45

Acties:

Verwijderd

En reken het nog eens na als je met 0 - 2,5 - 5 - 7,5 - 10 rekent? Of met 1-2-3-4-5

Het is natuurlijk niet gezegd dat 6 voldoende moet zijn omdat een school zo werkt. De hoogste plus de laagste moet gewoon op de middelste uitkomen. De termen daarbij zijn altijd een mogelijke discussie waard natuurlijk. Zo is de stap van voldoende naar slecht misschien wat groot zonder een onvoldoende ertussen.

Uiteindelijk blijft het natuurlijk om het vergelijkingsmechanisme gaan, en omdat het voor alle winkels gelijk wordt toegepast behoud je sowieso hetzelfde speelveld om mee te vergelijken. Je blindstaren op enkel een cijfer is nooit verstandig. Is het gebaseerd op 5 reviews, of op 100. Wat waren nu precies de negatieve ervaringen en gaat dat om zaken die ik zelf ook belangrijk vind of vind ik aftersales niet zo belangrijk bij een laptop waarbij de fabrikant een pickup en return garantie van 3 jaar geeft.

Ik zal de laatste zijn die beweert dat de ShR een sluitend systeem is die voor iedereen een goede ervaring garandeert en dat kan ook niet. Er is geen winkel waar niet iemand een keer een negatieve ervaring heeft. Maar om nu te stellen op basis van een aanname wat betreft puntentelling dat het niet in de haak is... Of kon jij op school ook een 0 halen en werd het gemiddelde van 1 en 10 = 5,5 ook niet als voldoende afgerond?

donderdag 31 maart 2011 15:20

Acties:

Boxman

Topicstarter

Op school kon je tussen de 1 en de 10 krijgen, met 5.5 een voldoende. Dat betekent dus dat je alsnog minimaal 50% van je toets goed moest hebben (9 punten te verdienen, 4.5 daarvan halen = 50% goed = 5.5 = voldoende hebben). Een 5.4 werd niet als een 'voldoende' gemarkeerd.

Als ik met 0, 2.5, 5, 7.5, 10 reken, krijg ik gemiddeld een 4.73. Dat is minder dan 5, dus geen voldoende.
Als ik met 1 2 3 4 5 reken, krijg ik een 2.89. Dat is minder dan 3, dus geen voldoende.

Het gaat me er gewoon om dat het intuitief krom is dat het blijkbaar mogelijk is een voldoende te krijgen, als ieder kan zien dat er meer negatieve dan positieve reviews zijn op dat onderdeel. Dit probeer ik dan te kwantificeren door er een rekensommetje aan te hangen, waar in essentie de weging niet goed is.2.

Zoals het nu is, worden de positieve scores relatief aan de negatieve scores zwaarder gewogen, wat tot een intuitief en wiskundig verklaarbaar vreemd resultaat leidt.

Edit; het probleem zit hem eigenlijk hierin; met de 2-4-6-8-10 telling wordt de grens alsnog op 5.5 gelegd, terwijl dit alleen gerechtvaardigd zou zijn als de schaal begint bij 1 en niet bij 10. Pas als de gemiddelde score onder de 5.5 ligt, gaat er een half sterretje af en wordt de score als <voldoende aangeduidt. Dus de webshop hoeft maar (5.5 - 2) / 8 = 0.4375 - dus slechts 44% - van 'de toets' goed te hebben als ze een voldoende willen krijgen. Hierdoor krijg je dus rare situaties.

[ Voor 20% gewijzigd door Boxman op 31-03-2011 15:35 ]

donderdag 31 maart 2011 17:57

Acties:

Verwijderd

Dus 5,8 naar zes afronden omdat je aan 6 gevoelsmatig voldoende hangt mag wel, maar afronden van 5,5 of 2,89 mag niet ? ...

Moeten we verder nog iets compenseren aan het feit dat mensen met een mindere ervaring sneller geneigd zijn actief te zoeken naar een reviewmogelijkheid, of aan dat er meer positieve reviews verwijderd worden wegens te weinig onderbouwing dan negatieve?

Het hele vergelijk met school gaat sowieso al mank. Er zijn geen goede of foute antwoorden die punten verdienen. Er zijn subjectieve meningen. Feit blijft dat 1x hoogst plus 1x laagst zou moeten middelen op gemiddeld en dat gemiddeld gezien wordt als voldoende. De berekening blijft hetzelfde, of je nu met 0-2-4-6-8 werkt of -4, -2, 0, 2, 4 of wat voor evenredige combinatie.

Ik snap op zich de insteek wel, maar ik vraag me af of het concreet wat toevoegt, zeker in het vergelijkingsplaatje. Wij zijn al erg strikt in het handhaven van negatieve reviews waar zelfs een geschillencommissie de winkel gelijk heeft gegeven omdat de achterliggende wetgeving ruimte laat voor verschillende interpretatie. Als je scores vergelijkt zal je zien dat over de hele linie de scores bij winkels hier lager liggen dan elders juist omdat wij niet zomaar reviews verwijderen en we actief ingrijpen bij pogingen tot beïnvloeding. Of... Moeten we dan hier ook maar dingen gaan toepassen om de scores op te hogen omdat 'de rest' dat ook doet? Ik kan zeggen dat winkels vanuit hun oogpunt dat argument gebruiken om te stellen dat wij ons beheerwerk niet goed doen.

Dit soort zaken zijn imho veel relevanter in een vergelijkingssyteem op basis van subjectieve meningen, dan het kijken naar hoe je een berekening anders zou kunnen toepassen of interpreteren. Wij staan gewoon voor een gelijk speelveld voor iedereen, en we trekken winkels niet voor en gebruikers niet voor. Dat betekent best vaak dat klachten van beide kanten komen met claims dat we de ander bevoordelen, en ik zeg maar zo dat we het niet zo slecht doen als beide kanten klagen.

[ Voor 15% gewijzigd door Verwijderd op 31-03-2011 18:02 ]

donderdag 31 maart 2011 18:14

Acties:

Boxman

Topicstarter

Verwijderd schreef op donderdag 31 maart 2011 @ 17:57:
Dus 5,8 naar zes afronden omdat je aan 6 gevoelsmatig voldoende hangt mag wel, maar afronden van 5,5 of 2,89 mag niet ? ...

Dat was ter illustratie hoe de kromme methode ging..

Feit blijft dat 1x hoogst plus 1x laagst zou moeten middelen op gemiddeld en dat gemiddeld gezien wordt als voldoende. De berekening blijft hetzelfde, of je nu met 0-2-4-6-8 werkt of wat voor evenredige combinatie.

Nou, blijkbaar niet dus. De 18x zeer slecht vs 15x zeer goed zou een benedengemiddelde score moeten opleveren. Door de afronding die jullie gebruiken, wordt dit niet gedaan. De marge die nu gebruikt wordt bij het afronden is blijkbaar genoeg om gevoelsmatig foute scores neer te zetten, omdat pas bij 44% 31% (zie edit) de score op 'onvoldoende' duikt, terwijl hij dan al ruim onvoldoende had moeten zijn.

Verder snap ik je argumenten wel, maar ik heb het even over het kwantitatieve aspect van het systeem. Jullie hebben ervoor gekozen om er een index aan te hangen, met harde cijfers. Als er voor zo'n kwantitatieve benadering gekozen wordt, is het toch raar om deze resultaten vervolgens te downplayen met kwalitatieve argumenten (het zijn meningen, er worden veel reviews verwijderd), als blijkt dat het niet nauwkeurig is? Hoeveel zin heeft zo'n index dan uberhaupt?

Mijn bezwaar is gewoon dat als je er een dergelijke schaal aan wilt hangen, dat dit ook nauwkeurig moet gebeuren. Nogmaals, dat er een hoop kwalitatieve aspecten zijn is uiteraard waar, maar naar mijn mening irrelevant als we het over deze 'rekenmethode' hebben. Onvoldoende volgens de klant is onvoldoende, en niet ongeveer voldoende.

Edit// Zo te zien is het nog wat erger dan ik dacht, neem dit als voorbeeld:

http://tweakers.net/shopreview/6931/redcoon.html

Ook met 2.5 sterren krijg je blijkbaar alsnog het predikaat "voldoende". De ondergrens van die 2.5 sterren ligt dan op (4.5 - 2) / 8 = 0.3125. Dus met slechts 31% (!!) krijg je alsnog het predikaat 'voldoende'. Kan toch niet de bedoeling zijn lijkt me.

[ Voor 10% gewijzigd door Boxman op 31-03-2011 18:23 ]

donderdag 31 maart 2011 20:04

Acties:

Verwijderd

Je doet nog steeds de aanname dat er een lineaire schaal geldt, en er is niet gezegd dat die er is. Je doet ook de aanname dat iedere review even zwaar weegt en ook dat is niet gezegd. Tenslotte diskwalificeer je elke kwalitatieve overweging.

Kijk, ik vind een discussie over wiskunde best interessant, maar het heeft niets met bruikbaarheid of waardering van ervaring (gevoelsmatig) te maken. Als we niet verder komen dan stellen dat een lineaire rekensom moet bepalen wat mensen vinden dan zijn we snel klaar.

donderdag 31 maart 2011 20:30

Acties:

Boxman

Topicstarter

Geen lineaire schaal? Hoe wil je dat rechtvaardigen dan? Tellen positieve reviews dan soms zwaarder dan negatieve? Ik doe de aanname, omdat het model consistent is met de waarnemingen op de shopreview pagina. Als die aanname fout is, kun je dan wellicht de juiste rekensom aangeven?

Is er geen lineaire schaal?
Telt niet elke mening even zwaar?
Wordt er aan elke review door een moderator een gewichtsfactor gehangen?

Zoals ik al zei, zijn de kwalitatieve overwegingen vast reuze interessant, maar als je een kwantitatief scoresysteem maakt dan doen de kwalitatieve overwegingen er niet toe. Tenzij je die kwalitatieve overwegingen weet om te zetten in cijfers, dan hoor ik graag hoe het zit.

Als alles wat ik hier zeg niet klopt, geef dan even duidelijkheid hoe het wel zit. Er heeft namelijk ook niemand gezegd dat mijn stellingen fout zijn.

donderdag 31 maart 2011 20:52

Acties:

Verwijderd

Tsja, ik heb eigenlijk niet zoveel zin om de exacte status bij de developers te gaan checken voor iets wat ik een non-issue vind. Ik kan de hele boel wel gaan lopen uitzoeken, maar to what end? Is de ShopReview niet betrouwbaar, voldoet het niet aan de verwachtingen, kloppen de indicaties niet met het gevoel wat mensen bij de winkels hebben, geven wij een positiever beeld dan de rest van de reviewsites, etc. Als we er een rekensom van hadden willen maken die niemand iets zegt dan hadden we er wel een precies te berekenen cijfer tot 6 achter de komma neergezet.

donderdag 31 maart 2011 20:53

Acties:

Boxman

Topicstarter

Nou zit je dus een beetje cynisch te doen, maar eigenlijk wil je dus gewoon geen antwoord geven?

Wil tweakers.net zich niet verbeteren? Als er een bug in die som zit, moet die er niet uit dan?

[ Voor 34% gewijzigd door Boxman op 31-03-2011 20:54 ]