Voor een project waarin ik automatisch interessante correlaties tracht te vinden in een dataset ben ik op zoek naar een manier om één op één, of idealiter bijvoorbeeld 95 procents, correlaties te vinden tussen twee (of bij voorkeur: n) factoren, waarbij ik niet vantevoren weet om welke factoren het gaat. Omdat een voorbeeld waarschijnlijk meer zegt dan het voorgaande, een hypothetische tabel waaruit ik zoiets zou willen destileren:
data:
types:
Hetgeen hieruit zou moeten komen, is dat voor een type 1 of een child daarvan characteristic A behaviour X voorspeld, en dat er verder geen boeiende resultaten zijn. Nu is mijn vraag: Is er een manier om dat resultaat te bereiken zonder voor álles de correlatie uit te gaan rekenen? Idealiter zou ik bovendien niet alleen op een snellere wijze één op één correlatie voor bepaalde subsets vinden, maar ook bijvoorbeeld een 95% correlatie.
Hetgeen ik bedacht had kwam niet verder dan het volgende, en ik vraag me ernstig af of dat de beste manier is
. Het voornaamste voordeel van de onderstaande methode ten opzichte 'gewoon' voor alles de correlatie uitrekenen is dat je stopt met het kijken naar de correlatie zodra blijkt dat dat die er niet volledig is. Daarnaast weet ik niet hoe ik op een efficiënte manier een correlatie tussen meer dan twee factoren zou moeten vinden.
Hetgeen ik op internet heb weten te vinden ging overigens over het algemeen over de correlatie tussen twee zaken, al dan niet van meerdere bronnen afkomstig. Meestal betrof het of het vergelijken van plaatjes of de input stroom van bijvoorbeeld meerdere radiotelescopen met een mogelijk verschil in delay.
. Daarmee valt iniedergeval een hoop meer te vinden, verwacht ik. Als ik iets vind wat ik snap en wat van toepassing op ^^ zal ik dat hier posten
.
data:
| ID | Type | Characteristic | Behaviour |
| 1 | 1 | A | X |
| 2 | 1 | A | X |
| 3 | 1 | B | Y |
| 4 | 2 | B | Z |
| 5 | 2 | A | X |
| 6 | 3 | A | Z |
types:
| ID | Parent |
| 1 | |
| 2 | 1 |
| 3 |
Hetgeen hieruit zou moeten komen, is dat voor een type 1 of een child daarvan characteristic A behaviour X voorspeld, en dat er verder geen boeiende resultaten zijn. Nu is mijn vraag: Is er een manier om dat resultaat te bereiken zonder voor álles de correlatie uit te gaan rekenen? Idealiter zou ik bovendien niet alleen op een snellere wijze één op één correlatie voor bepaalde subsets vinden, maar ook bijvoorbeeld een 95% correlatie.
Hetgeen ik bedacht had kwam niet verder dan het volgende, en ik vraag me ernstig af of dat de beste manier is
select type = 1 loop door characteristics heen bij 3 blijkt dat dat geen voorspellende waarde heeft loop door behaviours heen bij 3 blijkt dat dat geen voorspellende waarde heeft select type = 2 (...) select behaviour = X loop door type heen, zonder uit te gaan van een relatie tussen de types bij 5 blijkt dat er geen relatie is loop door type heen, de relatie tussen type 1 en 2 in aanmerking nemende bingo \o/ (...)
Hetgeen ik op internet heb weten te vinden ging overigens over het algemeen over de correlatie tussen twee zaken, al dan niet van meerdere bronnen afkomstig. Meestal betrof het of het vergelijken van plaatjes of de input stroom van bijvoorbeeld meerdere radiotelescopen met een mogelijk verschil in delay.
edit:
Ik bedenk me nu pas de term 'data mining' [ Voor 3% gewijzigd door JHS op 22-04-2007 10:13 ]