Vinden correlatie 2+ uit n factoren in dataset - Softwareontwikkeling

zaterdag 21 april 2007 18:43

Acties:

Splitting the thaum.

Topicstarter

Voor een project waarin ik automatisch interessante correlaties tracht te vinden in een dataset ben ik op zoek naar een manier om één op één, of idealiter bijvoorbeeld 95 procents, correlaties te vinden tussen twee (of bij voorkeur: n) factoren, waarbij ik niet vantevoren weet om welke factoren het gaat. Omdat een voorbeeld waarschijnlijk meer zegt dan het voorgaande, een hypothetische tabel waaruit ik zoiets zou willen destileren:

_data:

ID	Type	Characteristic	Behaviour
1	1	A	X
2	1	A	X
3	1	B	Y
4	2	B	Z
5	2	A	X
6	3	A	Z

_types:

ID	Parent
1
2	1
3

Hetgeen hieruit zou moeten komen, is dat voor een type 1 of een child daarvan characteristic A behaviour X voorspeld, en dat er verder geen boeiende resultaten zijn. Nu is mijn vraag: Is er een manier om dat resultaat te bereiken zonder voor álles de correlatie uit te gaan rekenen? Idealiter zou ik bovendien niet alleen op een snellere wijze één op één correlatie voor bepaalde subsets vinden, maar ook bijvoorbeeld een 95% correlatie.

Hetgeen ik bedacht had kwam niet verder dan het volgende, en ik vraag me ernstig af of dat de beste manier is

. Het voornaamste voordeel van de onderstaande methode ten opzichte 'gewoon' voor alles de correlatie uitrekenen is dat je stopt met het kijken naar de correlatie zodra blijkt dat dat die er niet volledig is. Daarnaast weet ik niet hoe ik op een efficiënte manier een correlatie tussen meer dan twee factoren zou moeten vinden.

select type = 1
loop door characteristics heen
  bij 3 blijkt dat dat geen voorspellende waarde heeft
loop door behaviours heen
  bij 3 blijkt dat dat geen voorspellende waarde heeft
select type = 2

(...)

select behaviour = X
loop door type heen, zonder uit te gaan van een relatie tussen de types
  bij 5 blijkt dat er geen relatie is
loop door type heen, de relatie tussen type 1 en 2 in aanmerking nemende
  bingo \o/

(...)

Hetgeen ik op internet heb weten te vinden ging overigens over het algemeen over de correlatie tussen twee zaken, al dan niet van meerdere bronnen afkomstig. Meestal betrof het of het vergelijken van plaatjes of de input stroom van bijvoorbeeld meerdere radiotelescopen met een mogelijk verschil in delay.

edit:

Ik bedenk me nu pas de term 'data mining'

. Daarmee valt iniedergeval een hoop meer te vinden, verwacht ik. Als ik iets vind wat ik snap en wat van toepassing op ^^ zal ik dat hier posten

.

[ Voor 3% gewijzigd door JHS op 22-04-2007 10:13 ]

DM!

zaterdag 21 april 2007 19:48

Acties:

superduper

Z3_3.0 Woeiiii

Mijn statistiek is ernstig weggezakt maar zou je hier geen ANOVA of MANOVA voor kunnen gebruiken?

zaterdag 21 april 2007 20:04

Acties:

JHS

Splitting the thaum.

Topicstarter

ANOVA, ofwel variantie analyse, gebruik je om populatiegemiddelden te vergelijken

. Of eigenlijk: je vergelijkt de variantie binnen en tussen populaties. Daarnaast is het volgens mij een parametrische test, waarbij uitgegaan wordt van een normale verdeling. MANOVA is een speciale ANOVA waarin er met meerdere onafhankelijke en niet-combineerbare dependent variabelen moet worden gewerkt.

Ik zie eerlijkgezegd niet in hoe dat gerelateerd is aan het bovensteende probleem

?

DM!