[Spss] hulp nodig met clusteren

zaterdag 21 januari 2012 11:28

Acties:

Verwijderd

Topicstarter

Beste tweakers,

Ik moet voor een opdracht voor school een k-means cluster maken. Nu is het probleem dat K-means niet berekent welke K(cluster)-value nodig is. Ik had dus gelezen dat je dit kon doen door middel van een hierarchical cluster methode. Omdat ik weinig snap van deze methode heb ik besloten om een tutorial te doen op de website van SPSS. (http://publib.boulder.ibm...cs.cs%2Fcluster_table.htm) In de tutorial wordt het bestand car_sales.sav. gebruikt.
Echter krijg ik niet de juiste resultaten.

Volgens de tutorial zou ik het volgende moeten doen.Een cluster analyse draaien met de variable: Price in thousands through Fuel efficiency, een dendogram, als cluster methode nearest neighbour selecteren, als interval squared euclidian distances gebruiken en als transform value z-scores gebruiken.

Volgens de tutorial zou ik het volgende schema moeten krijgen:
http://publib.boulder.ibm...ut_hca_dendro_cars_01.gif

echter krijg ik dit:
http://postimage.org/image/tmg17dcp1/
Ik hoop dat iemand me kan uitleggen hoe ik dit kan oplossen. Wanneer iemand een andere methode weet om het aantal clusters te kunnen vinden dan hoor ik het graag.

Alvast bedankt!

Met vriendelijke groet,

zaterdag 21 januari 2012 12:52

Acties:

pedorus

Ik vermoed dat je de stap "prepare the data" niet goed hebt gedaan omdat je allemaal andere cases hebt (if...).

Wat je ook kan doen is gewoon een K kiezen (zeg 3) en dan kijken of je een beetje goede groepen krijgt (bijv. kleurtjes naar groep in PCA-plotje en kijken of de groepen duidelijk te onderscheiden zijn). En zo een beetje K variëren.

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten

zaterdag 21 januari 2012 13:19

Acties:

Verwijderd

Topicstarter

pedorus schreef op zaterdag 21 januari 2012 @ 12:52:
Ik vermoed dat je de stap "prepare the data" niet goed hebt gedaan omdat je allemaal andere cases hebt (if...).

Ik heb ook met geloof ik optimal bining de data gelijk getrokken maar toen kreeg ik hetzelfde resultaat.

Wat je ook kan doen is gewoon een K kiezen (zeg 3) en dan kijken of je een beetje goede groepen krijgt (bijv. kleurtjes naar groep in PCA-plotje en kijken of de groepen duidelijk te onderscheiden zijn). En zo een beetje K variëren.

wanneer ik K-means doe voor 3,4 en 5 clusters en kijk naar numbers of cases for each cluster dan krijg ik het volgende:

k=2
cluster1=94
cluster2=58

k=3
cluster 1=74
cluster 2=14
cluster3=64

k=4
cluster1=55
cluster2=72
cluster3=24
cluster4=1

k=5
cluster1=54
cluster2=47
cluster3=1
cluster4=36
cluster5=14

Is dit de manier die je bedoelde? zo ja, waar dien ik dan naar te kijken? de aantal in de clusters eerlijk is verdeeld?

zaterdag 21 januari 2012 16:16

Acties:

pedorus

Verwijderd schreef op zaterdag 21 januari 2012 @ 13:19:
Ik heb ook met geloof ik optimal bining de data gelijk getrokken maar toen kreeg ik hetzelfde resultaat.

Nou de datapunten aan de linkerkant komen niet overheen, dus ik neem aan dat je een verkeerde selectie hebt gemaakt. De clusterstrategie om tot de dendogram te komen maakt niet uit.

Is dit de manier die je bedoelde? zo ja, waar dien ik dan naar te kijken? de aantal in de clusters eerlijk is verdeeld?

Nee, ik bedoel plaatjes zoals de gekleurde plaatjes onder discussion op Wikipedia: k-means clustering. Enkel dan niet op de assen van de normale data, maar op assen van de principale componenten zoals PCA die berekend, zoals hier bijvoorbeeld.

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten

Onderwerpen