Momenteel bezig met mijn scriptie. Korte uitleg van mijn afhankelijke variabele: ik wil onderzoeken hoe vaak bepaalde werkzaamheden worden uitgevoerd op een risico. De informatie die ik heb is:
1. De hoeveelheid risico's per case (met een maximum van 13 risico's);
2. Per risico een antwoord hoe dit risico is opgevolgd (mogelijke antwoorden zijn 0 t/m 6).
3. Ik wil in mijn afhankelijke variabele weergeven bij hoeveel risico's per case het antwoord 5 is gegeven. Ik wil namelijk onderzoeken of in de economische crisis vaker het antwoord 5 wordt gegeven dan voor de crisis.
4.Ik heb per case bepaalt hoe vaak het antwoord 5 is gegeven, dit heb ik gedeeld door het aantal risico's per case , hierdoor krijg ik een soort van verhoudingsgetal.
Het probleem waar ik tegenaan loop is dat bij veel cases het antwoord 5 helemaal niet is gegeven. Ik heb dus relatief vaak een score van 0,00 (immers 0 gedeeld door het aantal risico's). Het gemiddelde van de variabele ligt daarom rond de 0,11.
Omdat ik een regressie-analyse wil uitvoeren moet mijn afhankelijke variabele normaal verdeeld zijn. Dat is deze niet.Op het moment dat bijvoorbeeld voor 3 van de 4 variabelen het antwoord 5 is gegeven komt hier een score uit van 0,75, wat door SPSS als een outlier wordt gezien. In mijn histogram zie ik een grote piek bij de 0,00. Ik heb ook al een logaritme van de variabele gemaakt, maar dit veranderd niets aan de vorm van de histogram.
Ik zou alle outliers eruit kunnen gooien of ze normaliseren, dit leidt er echter naar mijn idee toe dat de uitkomsten straks totaal niet meer betrouwbaar/representatief zijn. Ik ben dus op zoek naar een andere oplossing waarbij ik wel een normaal verdeelde variabele heb, maar de kwaliteit van de dataset wel geborgd blijft. Hoop dat ik het een beetje duidelijk heb kunnen uitleggen, heeft iemand een idee hoe ik dit kan oplossen?
1. De hoeveelheid risico's per case (met een maximum van 13 risico's);
2. Per risico een antwoord hoe dit risico is opgevolgd (mogelijke antwoorden zijn 0 t/m 6).
3. Ik wil in mijn afhankelijke variabele weergeven bij hoeveel risico's per case het antwoord 5 is gegeven. Ik wil namelijk onderzoeken of in de economische crisis vaker het antwoord 5 wordt gegeven dan voor de crisis.
4.Ik heb per case bepaalt hoe vaak het antwoord 5 is gegeven, dit heb ik gedeeld door het aantal risico's per case , hierdoor krijg ik een soort van verhoudingsgetal.
Het probleem waar ik tegenaan loop is dat bij veel cases het antwoord 5 helemaal niet is gegeven. Ik heb dus relatief vaak een score van 0,00 (immers 0 gedeeld door het aantal risico's). Het gemiddelde van de variabele ligt daarom rond de 0,11.
Omdat ik een regressie-analyse wil uitvoeren moet mijn afhankelijke variabele normaal verdeeld zijn. Dat is deze niet.Op het moment dat bijvoorbeeld voor 3 van de 4 variabelen het antwoord 5 is gegeven komt hier een score uit van 0,75, wat door SPSS als een outlier wordt gezien. In mijn histogram zie ik een grote piek bij de 0,00. Ik heb ook al een logaritme van de variabele gemaakt, maar dit veranderd niets aan de vorm van de histogram.
Ik zou alle outliers eruit kunnen gooien of ze normaliseren, dit leidt er echter naar mijn idee toe dat de uitkomsten straks totaal niet meer betrouwbaar/representatief zijn. Ik ben dus op zoek naar een andere oplossing waarbij ik wel een normaal verdeelde variabele heb, maar de kwaliteit van de dataset wel geborgd blijft. Hoop dat ik het een beetje duidelijk heb kunnen uitleggen, heeft iemand een idee hoe ik dit kan oplossen?