[Excel] basis statistische berekeningen - Client software algemeen

zaterdag 31 oktober 2015 14:16

Acties:

youtube.com/@hisrep

Topicstarter

Ik heb een vraagje waar ik online niet helemaal goed uit kom. Ik heb een Excel bestand met daarin de antwoorden van 50 mensen op tien verschillende meerkeuze vragen met waarden van 1 tot 4. Ook is hun leeftijd en sexe een ingevulde variabele. Ik wil hier nu wat basis statistische gegevens uit halen. Iets als een gemiddelde en modus berekenen of de verdeling van antwoorden in een cirkel diagram zetten is natuurlijk vrij simpel.

Maar nu wil ik ook antwoord op vragen als: Is er een menings verschil tussen ouderen en jongeren? Denken mannen over bepaalde vragen anders dan vrouwen? Zijn mensen die het met vraag 1 helemaal eens zijn (waarde 1) het ook vaak helemaal eens met vraag 2?

Kortom net een stapje hoger qua complexiteit en ik kom er niet goed uit of dit nu wel of niet mogelijk is met Excel.

PS: opties als SPSS of de gratis linux varianten zijn geen oplossing ik wil juist weten of ik dit met Excel kan doen. Als het iets complexer gaat dan met professionele pakketten dan is dat geen probleem.

youtube.com/@hisrep

zaterdag 31 oktober 2015 14:21

Acties:

Fish

How much is the fish

Er is een heleboel mogelijkheden met excel. de uitvoering ligt bij jou. en wat jij vind dat een meninsgsverschil is. dus ..

leg uit wat je al hebt geprobeert/gevonden
waar je tegen een probleem aanloopt
en wat voor formule/algoritme je hanteerd

Iperf

zaterdag 31 oktober 2015 14:23

Acties:

MEN-O

IMO gebruikt EXCEL VB, daar moet je toch een heel eind mee kunnen komen ?

zaterdag 31 oktober 2015 14:27

Acties:

F_J_K

Moderator CSA/PB

Front verplichte underscores

Er is geen VB bij nodig, Excel heeft hier best mogelijkheden voor. Maar zoals Fish aangeeft horen we dan graag waar de TS vastloopt. Desgewenst na wat tutorials via [google=statistics with excel] (of ik begrijp de vraag niet goed

).

[ Voor 9% gewijzigd door F_J_K op 31-10-2015 14:27 ]

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

zaterdag 31 oktober 2015 14:27

Acties:

pacificocean

MEN-O schreef op zaterdag 31 oktober 2015 @ 14:23:
IMO gebruikt EXCEL VB, daar moet je toch een heel eind mee kunnen komen ?

Ik zie nog geen rede om vb te gebruiken. Definieer gewoon de algoritme die je nodig hebt. If then else etc zijn gewoon functies die je standaard kunt gebruiken excel.

zaterdag 31 oktober 2015 14:33

Acties:

naitsoezn

Nait Soez'n!

DeNachtwacht schreef op zaterdag 31 oktober 2015 @ 14:16:
Ik heb een vraagje waar ik online niet helemaal goed uit kom. Ik heb een Excel bestand met daarin de antwoorden van 50 mensen op tien verschillende meerkeuze vragen met waarden van 1 tot 4. Ook is hun leeftijd en sexe een ingevulde variabele. Ik wil hier nu wat basis statistische gegevens uit halen. Iets als een gemiddelde en modus berekenen of de verdeling van antwoorden in een cirkel diagram zetten is natuurlijk vrij simpel.

Maar nu wil ik ook antwoord op vragen als: Is er een menings verschil tussen ouderen en jongeren? Denken mannen over bepaalde vragen anders dan vrouwen? Zijn mensen die het met vraag 1 helemaal eens zijn (waarde 1) het ook vaak helemaal eens met vraag 2?

Kortom net een stapje hoger qua complexiteit en ik kom er niet goed uit of dit nu wel of niet mogelijk is met Excel.

PS: opties als SPSS of de gratis linux varianten zijn geen oplossing ik wil juist weten of ik dit met Excel kan doen. Als het iets complexer gaat dan met professionele pakketten dan is dat geen probleem.

Excel kan vrij veel, maar niet alles. Ik zou echt niet naar SPSS stappen als je niet weet hoe je het verschil tussen ouderen en jongeren duidelijk moet maken

. Oftewel: Wat jij wil vind je niet in Excel of SPSS, maar in boeken over statistiek. Alle software-programma's zijn alleen maar tools, hoe je ze gebruikt hangt volledig af van je kennis. De programma's zullen geen problemen oplossen, maar hoe je ze gebruikt mss wel

't Het nog nooit, nog nooit zo donker west, of 't wer altied wel weer licht

zaterdag 31 oktober 2015 15:07

Acties:

F_J_K

Moderator CSA/PB

Front verplichte underscores

Goede aanvulling. Ik stel voor dat de TS met concretere vragen komt, en met de huidige inrichting van de sheets. (Zonder vertrouwelijke data, natuurlijk).

Nu lijkt de vraag slechts te zijn: maak ff mijn huiswerk voor me

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

zaterdag 31 oktober 2015 16:40

Acties:

DeNachtwacht

youtube.com/@hisrep

Topicstarter

Hmm sorry maar ik vind sommige reacties van hierboven wat flauw, ligt dat aan mij? Ik geef in TS duidelijk aan wat voor soort berekeningen ik wil uitvoeren, en geef ook aan dat ik er online niet helemaal goed uit kom. Reden; ik beland dan steeds in complete naslag werken over statistiek (t testen, regressie enz) maar nooit een antwoord op de vragen:
hoe kan ik in mijn tabel met data het gemiddelde antwoord van mannen en het gemiddelde antwoord van vrouwen met elkaar vergelijken? Zijn er verschillen tussen het gemiddelde antwoord van jongeren en het gemiddelde antwoord van ouderen?
hoe kan ik zien of mensen die bij vraag 1 antwoordoptie 1 invullen, ook vaker bij vraag 2 antwoordoptie 2 invullen?

Kortom ik kom heel veel informatie tegen over ingewikkelde berekeningen in excel die ik helemaal niet wil doen, maar vind nergens antwoord op de vraag of de berekeningen die ik wil mogelijk zijn. Een linkje naar een site met antwoord hierop zou ik heel erg mee geholpen zijn, het lukt me dus gewoon niet dit te vinden.

Maar ik lees hierboven dus in ieder geval dat het mogelijk is

zou iemand me dan even een stap verder kunnen helpen? Alvast dank

youtube.com/@hisrep

zaterdag 31 oktober 2015 16:55

Acties:

pacificocean

Ik zie geen een flauw antwoord. Maar goed volgens mij moet je met avgif een heel eind komen.

zaterdag 31 oktober 2015 17:06

Acties:

naitsoezn

Nait Soez'n!

DeNachtwacht schreef op zaterdag 31 oktober 2015 @ 16:40:
Hmm sorry maar ik vind sommige reacties van hierboven wat flauw, ligt dat aan mij? Ik geef in TS duidelijk aan wat voor soort berekeningen ik wil uitvoeren, en geef ook aan dat ik er online niet helemaal goed uit kom. Reden; ik beland dan steeds in complete naslag werken over statistiek (t testen, regressie enz) maar nooit een antwoord op de vragen:

Als je nu een vraag had over één van die dingen, dan kun je die hier natuurlijk gewoon stellen

hoe kan ik in mijn tabel met data het gemiddelde antwoord van mannen en het gemiddelde antwoord van vrouwen met elkaar vergelijken? Zijn er verschillen tussen het gemiddelde antwoord van jongeren en het gemiddelde antwoord van ouderen?

Even afgezien van de software: Hoe zou je dit graag uitrekenen? Als je alleen pen en papier had, hoe zou je dit oplossen? En als je dat weet, hoe zou je dit dan proberen om te zetten naar een Excel-formule, en waar loop je precies op vast?

Kortom ik kom heel veel informatie tegen over ingewikkelde berekeningen in excel die ik helemaal niet wil doen, maar vind nergens antwoord op de vraag of de berekeningen die ik wil mogelijk zijn.

Welke mogelijkheden heb je gevonden, wat heb je geprobeerd maar lukte niet, en waar loop je op vast?

Maar ik lees hierboven dus in ieder geval dat het mogelijk is zou iemand me dan even een stap verder kunnen helpen?

Zo werkt het hier niet

.... 'we' zijn hier geen helpdesk, ik hoop dat je zelf al iig een idee hebt van een mogelijke oplossing.... waar loop je op vast is de vraag

't Het nog nooit, nog nooit zo donker west, of 't wer altied wel weer licht

zaterdag 31 oktober 2015 19:23

Acties:

Fish

How much is the fish

DeNachtwacht schreef op zaterdag 31 oktober 2015 @ 16:40:
Hmm sorry maar ik vind sommige reacties van hierboven wat flauw, ligt dat aan mij? Ik geef in TS duidelijk aan wat voor soort berekeningen ik wil uitvoeren, en geef ook aan dat ik er online niet helemaal goed uit kom. Reden; ik beland dan steeds in complete naslag werken over statistiek (t testen, regressie enz) maar nooit een antwoord op de vragen:
hoe kan ik in mijn tabel met data het gemiddelde antwoord van mannen en het gemiddelde antwoord van vrouwen met elkaar vergelijken? Zijn er verschillen tussen het gemiddelde antwoord van jongeren en het gemiddelde antwoord van ouderen?
hoe kan ik zien of mensen die bij vraag 1 antwoordoptie 1 invullen, ook vaker bij vraag 2 antwoordoptie 2 invullen?

Kortom ik kom heel veel informatie tegen over ingewikkelde berekeningen in excel die ik helemaal niet wil doen, maar vind nergens antwoord op de vraag of de berekeningen die ik wil mogelijk zijn. Een linkje naar een site met antwoord hierop zou ik heel erg mee geholpen zijn, het lukt me dus gewoon niet dit te vinden.

Maar ik lees hierboven dus in ieder geval dat het mogelijk is zou iemand me dan even een stap verder kunnen helpen? Alvast dank

Ik vind het eerder flauw dat je het flauw vind terwijl er echt niet flauw gedaan wordt, maar ja

Het probleem zit imho tussen je oren. of in je uitleg. Het gemiddelde van een meerkeuze vraag? is bijna niet te bepalen, maar ja je geeft ook niet aan wat voor soort vragen antwoorden er inzitten. daarom vraag ik ook naar een algoritme. of heb je het over een soort score?
e.g
Wat vind je het lekkerst?
a) Kip
b) Varken
c) rund
d) eend

er stemmen 10 man kip, 5 rund, 7 eend en 8 varken
En het gemiddelde is dan .... lam ? wat is voor jou een gemiddelde ?

hoe kan ik zien of mensen die bij vraag 1 antwoordoptie 1 invullen, ook vaker bij vraag 2 antwoordoptie 2 invullen?

sumif, maar dan ook weer de vraag wat is de definitie van vaker (als in vaker dan). excel werkt met absolute waarden, niet met relatieve waarden. het relatieve is iets wat jij moet defineren en in de formules moet verwerken.

Iperf

zondag 1 november 2015 16:10

Acties:

DeNachtwacht

youtube.com/@hisrep

Topicstarter

Ik ben eruit gekomen met inderdaad SOM.ALS. Zo simpel was mijn vraag dus eigenlijk ;-) maarja als je die functie niet kent weet je ook niet dat je die moet zoeken...

Zoals ik al zei ben ik niet heel erg in excel thuis, en vind ik op internet meteen zeer ingewikkelde handleidingen terwijl wat ik wil eigenlijk alleen net even meer is dan optellen en aftrekken. Omdat ik kennelijk ook niet helemaal helder over kom, ik heb dus een tabel met 10 antwoorden van 50 personen op een schaal van 1-4. Even inkorten naar 3 personen die op 2 vragen antwoorden kom je dus op zo'n tabel:

Sexe	Antwoord 1	Antwoord 2
1	2	2
2	4	4
1	3	1

Waarbij 1= man en 2=vrouw in de sexe kolom (nee, gemiddelde uitrekenen heeft voor die kolom geen zin

)

Vervolgens wil ik dus weten: geven mannen gemiddeld hogere antwoorden op vraag 1 dan vrouwen?
Dan moet je dus eerst tellen hoeveel mannen en vrouwen je hebt in A2:A4. Oplossing: =AANTAL.ALS(A2:A4, 1) en daaronder =AANTAL.ALS(A2:A4, 2). In deze cellen A5 en A6 zie je dus het aantal mannen (1) en aantal vrouwen (2) berekend.

Vervolgens willen we weten of ze gemiddeld anders antwoorden. Dan doe je dus in cel B5: =SOM.ALS(A2:A4; 1; B2:B4)/A5. Hiermee telt excel dus elk cijfer in kolom B op, als er in kolom A op die plaats een 1 staat (en het dus een man is). Vervolgens wordt dit totaal gedeeld door het totaal aantal mannen (eerder berekend in cel A5). Nu hebben we het gemiddelde antwoord van de mannen.
In cel B6 doe je dus precies hetzelfde, alleen dan met waarde 2 om alle waarden van vrouwen op te tellen. En vervolgens kijkt die natuurlijk in cel A6 om te zien hoeveel vrouwen er zijn. Sommetje =SOM.ALS(A2:A4; 2; B2:B4)/A6.

En nu zien we mooi berekend dat mannen gemiddeld 2,5 antwoorden bij antwoord 1, en vrouwen gemiddeld 4. Dit is hoe ik er nu uit kom. Vraag 1 is dan: is nu duidelijk wat ik precies wilde?

Vraag 2: zouden jullie nog dingen anders doen?

youtube.com/@hisrep

zondag 1 november 2015 16:18

Acties:

Jeroenneman

Pre-order/Early Acces: Nee!

DeNachtwacht schreef op zondag 01 november 2015 @ 16:10:
Ik ben eruit gekomen met inderdaad SOM.ALS. Zo simpel was mijn vraag dus eigenlijk ;-) maarja als je die functie niet kent weet je ook niet dat je die moet zoeken...

Zoals ik al zei ben ik niet heel erg in excel thuis, en vind ik op internet meteen zeer ingewikkelde handleidingen terwijl wat ik wil eigenlijk alleen net even meer is dan optellen en aftrekken. Omdat ik kennelijk ook niet helemaal helder over kom, ik heb dus een tabel met 10 antwoorden van 50 personen op een schaal van 1-4. Even inkorten naar 3 personen die op 2 vragen antwoorden kom je dus op zo'n tabel:

Sexe Antwoord 1 Antwoord 2
1 2 2
2 4 4
1 3 1

Waarbij 1= man en 2=vrouw in de sexe kolom (nee, gemiddelde uitrekenen heeft voor die kolom geen zin )

Vervolgens wil ik dus weten: geven mannen gemiddeld hogere antwoorden op vraag 1 dan vrouwen?
Dan moet je dus eerst tellen hoeveel mannen en vrouwen je hebt in A2:A4. Oplossing: =AANTAL.ALS(A2:A4, 1) en daaronder =AANTAL.ALS(A2:A4, 2). In deze cellen A5 en A6 zie je dus het aantal mannen (1) en aantal vrouwen (2) berekend.

Vervolgens willen we weten of ze gemiddeld anders antwoorden. Dan doe je dus in cel B5: =SOM.ALS(A2:A4; 1; B2:B4)/A5. Hiermee telt excel dus elk cijfer in kolom B op, als er in kolom A op die plaats een 1 staat (en het dus een man is). Vervolgens wordt dit totaal gedeeld door het totaal aantal mannen (eerder berekend in cel A5). Nu hebben we het gemiddelde antwoord van de mannen.
In cel B6 doe je dus precies hetzelfde, alleen dan met waarde 2 om alle waarden van vrouwen op te tellen. En vervolgens kijkt die natuurlijk in cel A6 om te zien hoeveel vrouwen er zijn. Sommetje =SOM.ALS(A2:A4; 2; B2:B4)/A6.

En nu zien we mooi berekend dat mannen gemiddeld 2,5 antwoorden bij antwoord 1, en vrouwen gemiddeld 4. Dit is hoe ik er nu uit kom. Vraag 1 is dan: is nu duidelijk wat ik precies wilde? Vraag 2: zouden jullie nog dingen anders doen?

Lijkt me nog wel interessant om ook even te testen of het verschil tussen 2,5 en 4 nu ook significant verschillend is. Oftewel, wijken de antwoorden die je hebt gekregen ook af van de antwoorden die je had verwacht?

Also: misschien is dit wel een handige":

Afbeeldingslocatie: http://i.imgur.com/OyvOW31.jpg

Afbeeldingslocatie: http://i.imgur.com/OyvOW31.jpg

| Old Faithful | i7 920 @ (3,3Ghz) / X58 UD4P / GTX960 (1,550Mhz) / CM 690 | NOVA | i5 6600K (4,4Ghz) / Z170 Pro Gaming / GTX 960 (1,500Mhz) / NZXT S340

zondag 1 november 2015 17:05

Acties:

DeNachtwacht

youtube.com/@hisrep

Topicstarter

Jeroenneman schreef op zondag 01 november 2015 @ 16:18:
[...]

Lijkt me nog wel interessant om ook even te testen of het verschil tussen 2,5 en 4 nu ook significant verschillend is. Oftewel, wijken de antwoorden die je hebt gekregen ook af van de antwoorden die je had verwacht?

Also: misschien is dit wel een handige":

[afbeelding]

Thx voor de reply
Maar: wat je zegt is niet wat significantie is. In dit geval zou "wijken de antwoorden van de mannen siginificant van die van de vrouwen af" betekenen "wanneer er een verschil is tussen de antwoorden van mannen en vrouwen, is de kans dat dit verschil veroorzaakt wordt door toeval dan kleiner dan <vul hier je P waarde in>?

Daarnaast: ik ben voor dit soort onderzoekjes op kleine schaal met enquêtes niet echt geïnteresseerd in significanties. Reden; het is gewoon nooit significant met 50 personen, dus zeg 25 mannen en 25 vrouwen, met bijvoorbeeld een verschil van 0,5 tussen de gemiddelden. Daarvoor is het verschil simpelweg te klein en het aantal respondenten te laag. Je hoeft dus helemaal geen statistische toetsen te doen om te weten dat dit soort kleinschalig onderzoek (vrijwel) nooit significante verschillen oplevert.

Wat met name in dit soort enquete onderzoek door (sociale) wetenschappers dan wordt gedaan is een P waarde van 0,3 te hanteren voor significantie. Daarmee zeg je eigenlijk: de kans dat de verschillen die ik gevonden heb veroorzaakt worden door een toevallige samenloop van omstandigheden, is nog steeds 30%. Compleet onzin dus om dat significant te noemen.

Statistische toetsen doe ik dus alleen als je met enige zekerheid kunt verwachten dat de P 0,01 of liever nog flink lager zou kunnen liggen. Bij alle P waardes die hoger liggen vind ik het altijd een hoop interessant-doenerij met "kijk eens hoeveel ik weet van statistiek" zonder dat het feitelijk echt iets toevoegt aan de kwaliteit van je onderzoek. Je kan je dan maar beter focussen op de verschillen die je daadwerkelijk ziet, en er gewoon vanuit gaan dat de kans behoorlijk is dat het toevallig ontstane verschillen zijn.

Maar dat is mijn mening.

[ Voor 17% gewijzigd door DeNachtwacht op 01-11-2015 17:12 ]

youtube.com/@hisrep

zondag 1 november 2015 17:06

Acties:

pacificocean

Als je dit voorbeeld gister had gegeven had het een stuk duidelijker geweest. Je kan het trouwens ook in 1 stap oplossen met avgif. Of hoe die functie ook in het nederlands mag zijn. Maar goed dat zei ik gisteren al. Het probleem is overigens ook op te lossen zonder die if meng functies, maar dan zal je waarschijnlijk een hulp kollom moeten gebruiken.

zondag 1 november 2015 17:07

Acties:

DeNachtwacht

youtube.com/@hisrep

Topicstarter

pacificocean schreef op zondag 01 november 2015 @ 17:06:
Als je dit voorbeeld gister had gegeven had het een stuk duidelijker geweest.

Sorry, ik realiseerde me pas later dat ik gewoon niet echt duidelijk over kwam. Ik had het gevoel dat ik het best duidelijk had uitgelegd maar daar ontbrak het kennelijk aan.

pacificocean schreef op zondag 01 november 2015 @ 17:06:
Je kan het trouwens ook in 1 stap oplossen met avgif. Of hoe die functie ook in het nederlands mag zijn.

Ga ik ook nog eens naar kijken, thx.

[ Voor 26% gewijzigd door DeNachtwacht op 01-11-2015 17:13 ]

youtube.com/@hisrep

zondag 1 november 2015 17:16

Acties:

begintmeta

Moderator General Chat

Waarom wil je het eigenlijk in Excel doen als je daar niet zo in thuis bent?

Als je 'antwoord' op vragen wil is het altijd handig om je af te vragen of het antwoord wel echt een antwoord zou kunnen zijn, maar dat spreekt natuurlijk vanzelf en het is uiteraard ook offtopic.

zondag 1 november 2015 17:37

Acties:

Jeroenneman

Pre-order/Early Acces: Nee!

DeNachtwacht schreef op zondag 01 november 2015 @ 17:05:
[...]

Thx voor de reply
Maar: wat je zegt is niet wat significantie is. In dit geval zou "wijken de antwoorden van de mannen siginificant van die van de vrouwen af" betekenen "wanneer er een verschil is tussen de antwoorden van mannen en vrouwen, is de kans dat dit verschil veroorzaakt wordt door toeval dan kleiner dan <vul hier je P waarde in>?

Daarnaast: ik ben voor dit soort onderzoekjes op kleine schaal met enquêtes niet echt geïnteresseerd in significanties. Reden; het is gewoon nooit significant met 50 personen, dus zeg 25 mannen en 25 vrouwen, met bijvoorbeeld een verschil van 0,5 tussen de gemiddelden. Daarvoor is het verschil simpelweg te klein en het aantal respondenten te laag. Je hoeft dus helemaal geen statistische toetsen te doen om te weten dat dit soort kleinschalig onderzoek (vrijwel) nooit significante verschillen oplevert.

Wat met name in dit soort enquete onderzoek door (sociale) wetenschappers dan wordt gedaan is een P waarde van 0,3 te hanteren voor significantie. Daarmee zeg je eigenlijk: de kans dat de verschillen die ik gevonden heb veroorzaakt worden door een toevallige samenloop van omstandigheden, is nog steeds 30%. Compleet onzin dus om dat significant te noemen.

Statistische toetsen doe ik dus alleen als je met enige zekerheid kunt verwachten dat de P 0,01 of liever nog flink lager zou kunnen liggen. Bij alle P waardes die hoger liggen vind ik het altijd een hoop interessant-doenerij met "kijk eens hoeveel ik weet van statistiek" zonder dat het feitelijk echt iets toevoegt aan de kwaliteit van je onderzoek. Je kan je dan maar beter focussen op de verschillen die je daadwerkelijk ziet, en er gewoon vanuit gaan dat de kans behoorlijk is dat het toevallig ontstane verschillen zijn.

Maar dat is mijn mening.

Ik kon niet inschatten wat je kennis niveau was, maar blijkbaar heb je er toch over nagedacht.

Rest natuurlijk de vraag: waarom uberhaupt onderzoek doen, als je niks kunt bewijzen? ( ook al wordt dit in de sociale wetenschappen vaak genegeerd, terwijl je er bij medisch onderzoek voor op je flikker zult krijgen)

| Old Faithful | i7 920 @ (3,3Ghz) / X58 UD4P / GTX960 (1,550Mhz) / CM 690 | NOVA | i5 6600K (4,4Ghz) / Z170 Pro Gaming / GTX 960 (1,500Mhz) / NZXT S340

zondag 1 november 2015 18:32

Acties:

DeNachtwacht

youtube.com/@hisrep

Topicstarter

Jeroenneman schreef op zondag 01 november 2015 @ 17:37:
Rest natuurlijk de vraag: waarom uberhaupt onderzoek doen, als je niks kunt bewijzen? ( ook al wordt dit in de sociale wetenschappen vaak genegeerd, terwijl je er bij medisch onderzoek voor op je flikker zult krijgen)

Omdat significantie bij kleine onderzoeken heel anders geïnterpreteerd moet worden. Voorbeeldje: "ik ben over het algemeen tevreden over de snelheid waarmee tweakers.net laadt" waarbij tweakers van 1 (helemaal niet) tot 5 (helemaal wel) kunnen scoren. Al snel zullen zo'n 5000 tweakers iets invullen, we gaan er even vanuit dat het lang op de site staat, iedereen er toegang toe heeft en de resultaten dus behoorlijk representatief zijn. Dan kun je die significantie er nog overheen gooien om te testen: in hoeverre is het toeval dat van de 129.327 tweakers in nederland (even uit de duim) deze 5000 een ANDERE mening hebben dan de overige 124.327. Bij deze grote, representatieve steekproef is een significantie test nuttig. Maar nu wil ik diezelfde mening van de tweakers weten in het jaar 1998. Tweakers was toen heel klein en had (weer even getal uit de duim) 50 bezoekers die ook ALLEMAAL de poll invullen op de site. Dus 50 van de 50 tweakers vullen de poll in. Dan hoef je helemaal niet meer te meten hoe groot de kans is dat 50 andere tweakers iets anders in gaan vullen. Er zijn namelijk (nog) helemaal geen andere tweakers. Kortom zolang je iedereen in de steekproef bevraagt is significantie helemaal niet nodig.

Ik durf de stelling trouwens wel aan dat divers goed sociaalwetenschappelijk onderzoek de pan aanveegt met héél veel medisch onderzoek. Ook daar wordt heel veel statistiek bedreven door mensen die er weinig kaas van hebben geweten. Ik ben trouwens wel met je eens dat het gemiddelde sociaalwetenschappelijke onderzoek inderdaad belabberder is dan het gemiddelde medische onderzoek, maar ook in de laatste categorie hoeven we niet de illusie te hebben dat meer dan 50% van de onderzoekers/studenten ook echt snapt wat hij aan het doen is is mijn stelling.

youtube.com/@hisrep

zondag 1 november 2015 18:59

Acties:

begintmeta

Moderator General Chat

Ben nog wel benieuwd naar waarom juist Excel.

offtopic:
DeNachtwacht schreef op zondag 01 november 2015 @ 18:32:
...Kortom zolang je iedereen in de steekproef bevraagt is significantie helemaal niet nodig....

Ik neem aan dat je iedereen in de populatie bedoelt, als je de hele populatie hebt bevraagd is een steekproef niet nodig uiteraard. Of het zinvol is om in dat geval onzekerheden te bepalen is eventueel ook afhankelijk van de vaag/het onder/achterliggende model/de meetmethode.

Ook bij medisch onderzoek zijn inderdaad vaak methodologische en/of statistische kanttekeningen te plaatsen.

[ Voor 3% gewijzigd door begintmeta op 01-11-2015 19:29 ]

zondag 1 november 2015 19:07

Acties:

Orion84

Admin General Chat / Wonen & Mobiliteit

Fotogenie(k)?

Kijk eens naar de mogelijkheden van pivot tables en pivot charts. Als ik sommige van je posts zo lees, dan ben je gewoon handmatig formules aan het bouwen die exact hetzelfde doen als wat je met een pivot table kan.

The problem with common sense is that it's not all that common. | LinkedIn | Flickr

zondag 1 november 2015 19:08

Acties:

pacificocean

begintmeta schreef op zondag 01 november 2015 @ 18:59:
Ben nog wel benieuwd naar waarom juist Excel.

offtopic:
DeNachtwacht schreef op zondag 01 november 2015 @ 18:32:
...Kortom zolang je iedereen in de steekproef bevraagt is significantie helemaal niet nodig....

Ik neem aan dat je iedereen in de populatie bedoelt, als je de hele populatie bevraagd is een steekproef niet nodig uiteraard. Of het zinvol is om in dat geval onzekerheden te bepalen is eventueel ook afhankelijk van de vaag/het onder/achterliggende model/de meetmethode.

Ook bij medisch onderzoek zijn inderdaad vaak methodologische en/of statistische kanttekeningen te plaatsen.

Excel is hier toch juist ideaal voor. ondanks dat ts hier geen ervaring mee heeft. Zijn hiervoor dan alternatieven. Spss niet, want dat is pure overkill hiervoor.

zondag 1 november 2015 19:13

Acties:

Tazzios

..

Klinkt mij alsof je 1 tabel hebt met antwoorden die je wilt kunnen filteren en op verschillende manieren(gelacht,leeftijd) wilt bekijken. Dat kan prima met draaitabellen.

Edit: zoals door Orion84 dus al is aangegeven.

[ Voor 13% gewijzigd door Tazzios op 01-11-2015 19:14 ]

zondag 1 november 2015 19:23

Acties:

wimjongil

Misschien een beetje te laat, maar goed:

Wat jij wilt is parameters testen. Om de voorbeelden uit de OP te gebruiken: je wilt kijken of het geslacht (gebruik hier trouwens een binaire variabele voor!) invloed heeft op de keuze voor vraag 1. Dan krijg je het volgende OLS model:

Vraag1 = Constante + beta*geslacht + error

Je null-hypothese is dat beta gelijk is aan nul. Als je die kunt verwerpen, kun je zeggen dat geslacht inderdaad invloed heeft op het antwoord bij vraag 1. Dit test je door de waarde van beta onder de null hypothese af te trekken van je estimate voor beta, en vervolgens te delen door de standard error voor je estimate. Dit vergelijk je vervolgens met een T-waarde met 50-2=48 degrees of freedom op jouw gewenste significantieniveau. Als de (absolute) waarde van jouw T-test boven de gevonden waarde voor T(48,significantieniveau) ligt, verwerp je de null en heeft geslacht inderdaad invloed op de uitkomst van vraag 1.

Een ordinary least squares regression moet prima te doen zijn in excel, standard errors uitrekenen ook. Dat moet je alleen even googlen misschien. Heb ik al even voor je gedaan: je moet de LINEST-functie gebruiken.

Een goede uitleg is hier te vinden: Wikipedia: Student's t-test.

Overigens neem je hier allerlei aannames over je populatie, steekproef etc., maar voor een simpel testje kun je daar wel mee weg komen. Je kunt trouwens ook een model maken waarbij je gaat testen of geslacht EN leeftijd een gezamenlijke invloed hebben op de uitkomst van vraag 1.

Dit soort statistische functies zitten volgens mij wel in Excel (of LibreOffice z'n equivalent), maar in R is dit ook super simpel te doen.

DeNachtwacht schreef op zondag 01 november 2015 @ 18:32:
[...]

Omdat significantie bij kleine onderzoeken heel anders geïnterpreteerd moet worden. Voorbeeldje: "ik ben over het algemeen tevreden over de snelheid waarmee tweakers.net laadt" waarbij tweakers van 1 (helemaal niet) tot 5 (helemaal wel) kunnen scoren. Al snel zullen zo'n 5000 tweakers iets invullen, we gaan er even vanuit dat het lang op de site staat, iedereen er toegang toe heeft en de resultaten dus behoorlijk representatief zijn. Dan kun je die significantie er nog overheen gooien om te testen: in hoeverre is het toeval dat van de 129.327 tweakers in nederland (even uit de duim) deze 5000 een ANDERE mening hebben dan de overige 124.327. Bij deze grote, representatieve steekproef is een significantie test nuttig. Maar nu wil ik diezelfde mening van de tweakers weten in het jaar 1998. Tweakers was toen heel klein en had (weer even getal uit de duim) 50 bezoekers die ook ALLEMAAL de poll invullen op de site. Dus 50 van de 50 tweakers vullen de poll in. Dan hoef je helemaal niet meer te meten hoe groot de kans is dat 50 andere tweakers iets anders in gaan vullen. Er zijn namelijk (nog) helemaal geen andere tweakers. Kortom zolang je iedereen in de steekproef bevraagt is significantie helemaal niet nodig.

Ik durf de stelling trouwens wel aan dat divers goed sociaalwetenschappelijk onderzoek de pan aanveegt met héél veel medisch onderzoek. Ook daar wordt heel veel statistiek bedreven door mensen die er weinig kaas van hebben geweten. Ik ben trouwens wel met je eens dat het gemiddelde sociaalwetenschappelijke onderzoek inderdaad belabberder is dan het gemiddelde medische onderzoek, maar ook in de laatste categorie hoeven we niet de illusie te hebben dat meer dan 50% van de onderzoekers/studenten ook echt snapt wat hij aan het doen is is mijn stelling.

Dit slaat helaas nergens op.

Onder normale assumpties heb je bij een steekproefgrootte van 350-400 al genoeg om voor een oneindige populatie op 95% significantie zinnige uitspraken te doen. Als je de hele populatie weet, is statistiek nergens meer voor nodig omdat je met zekerheid kunt zeggen wat de parameters van de populatie zijn.

Je laatste zin is wel correct dan weer. Ik studeer (praktisch) statistiek, en zelfs ik ben af en toe compleet de weg kwijt, terwijl ik toch wel de wiskundige ideeën achter al die testen en modellen ken. Laat staan dat iemand wiens statistiek kennis alleen de knopjes in SPSS betreft, immer correcte statistische analyses uitvoert.

zondag 1 november 2015 21:47

Acties:

DeNachtwacht

youtube.com/@hisrep

Topicstarter

Bedankt voor het meedenken van diverse kanten.

- Ja ik bedoel natuurlijk inderdaad populatie ;-)
- Pivot tables ziet er goed uit, en inderdaad is de reden waarom ik dit even met excel wil doen omdat SPSS en aanverwanten hier volgens mij veel te groot (en vooral duur omdat ik hier nu even niet over beschik) voor zijn.
- Ik zal ook eens kijken naar dat LINEST verhaal.

Wat betreft je laatste opmerking wimjongil, is het ook feitelijk zo dat ik zeg dat die significantie niet meer nodig is (we weten in het voorbeeld immers de gehele populatie). Ik begon mijn verhaal echter met "Omdat significantie bij kleine onderzoeken heel anders geïnterpreteerd moet worden." lees ik nu. Om dit verhaal even compleet te maken: ja tuurlijk heb je gelijk dat je met een steekproef van zo'n 350 al vrij vaak goed zit (tenzij alle respondenten constant antwoorden gaan geven die 0,1 uit elkaar zitten natuurlijk). Maar ten eerste schrijf ik hier boven al dat ik zelf P waarden van boven de 0,01 al niet serieus neem; met 20 onderzoeken waarbij ze P=0,05 nemen is er nog steeds één onderzoek fout. Ik vind dat veel te veel wetenschappers deze vrij grote foutmarge nogal gemakkelijk wegwuiven en zoals al gezegd komt het bij met name sociaal-wetenschappelijk onderzoek schrikbarend vaak voor dat ze zelfs niet terugdeinzen voor P=0,1 tot soms zelfs P=0,3 (!) als acceptabele ondergrens.

Ten tweede: ik bedoel vooral dat bij kleine steekproeven (10, 20, 50 respondenten) er heel vaak superingewikkelde significantietests worden uitgevoerd, maar dit vanwege de steekproefgrootte eigenlijk toch zelden iets zinnigs oplevert. Men is alleen maar aan het kijken naar of het significant is zonder dat men uberhaubt snapt wat het is, terwijl in de data van die kleine steekproef soms best leuke dingen kunnen staan waar je bijvoorbeeld op kan doorvragen bij een vervolgonderzoekje om te zien of het nou toevallig zo is of niet. Als van jouw 100 medewerkers er 10 meedoen aan een tevredenheidsonderzoek en er vrij veel geklaagd wordt, schiet je veel meer op met een vervolgonderzoekje bij nog eens 20 of 30 medewerkers of die klachten inderdaad in het hele bedrijf leven, dan met mooie significantietestjes en meteen maar alle conclusies verwerpen omdat de P op 0,33 komt. Maar nee hoor, "we hebben geleerd op de opleiding dat het significant moet zijn, dus gooien we alles weg".

Dus je hebt gelijk maar ik hoop dat je mijn punt ook een beetje begrijpt dat die eenzijdige "ik weet niet wat significantie betekent maar ik gooi wel al mijn data weg" houding ook een probleem is waar maar bar weinig mensen zich vandaag de dag zorgen om maken. Of, sterker, zoals ik in dit geval dus zeg: laat dat testen op significantie maar even zitten want het gaat toch niks op leveren, terwijl even nadenken over de resultaten je wél iets kan brengen.

[ Voor 5% gewijzigd door DeNachtwacht op 01-11-2015 21:49 ]

youtube.com/@hisrep

maandag 2 november 2015 00:51

Acties:

wimjongil

Een p-waarde van 0,1 of zelfs 0,3 is inderdaad absurd. Dat ben ik zelf ook nooit tegengekomen eigenlijk, vrijwel altijd zie ik 0,05 als de absolute bovengrens en wordt er gestreeft naar (veel) minder.

Ik ben het volstrekt met je eens dat je altijd de menselijke maat moet houden als je getallen gaat analyseren. Voor praktische toepassingen (in het bedrijfsleven bijvoorbeeld) kom je al heel ver met gewoon wat gemiddeldes uitrekenen. Overigens hoeven kleine steekproeven geen belemmering te zijn. Als je gaat bootstrappen (ongeveer: nieuwe samples halen uit je oorspronkelijke steekproef) of varianties analyseert, kun je ook al wat meer zeggen over verbanden in je data.

Er is trouwens ook heel veel ruimte voor geavanceerde technieken. Laatst kreeg ik een gastcollege van een kwantitatief marketingbedrijf dat met time series analysis de juiste allocatie uitrekende voor het marketingbudget van bedrijven. Erg interessant en zeker niet voor iedereen weggelegd.

Maargoed, dit is allemaal nogal offtopic. Als ik jou was zou ik kijken naar LINEST en een paar modellen met afhankelijke en onafhankelijke variabelen opstellen. Is de beta van een variable <0 of >0 dan heeft het een negatieve (respectievelijk positieve) invloed op de afhankelijke variabele. Is de beta bijna gelijk aan 0 (in vergelijking met de andere beta's), dan heeft het waarschijnlijk geen invloed. Door een paar verschillende modellen te maken kun je zo een beetje kijken welke variabelen waardoor worden beïnvloed. Dit is erg gelimiteerd en verre van wetenschappelijk correct, maar je komt er een heel eind mee.