Dataanalyse met R

Pagina: 1
Acties:

Onderwerpen

Vraag


Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
Ik volg een vak met Big data en het gebruik ervan, er werd van ons verwacht om verschillende datasets te mergen in een dataset en vervolgens dit te analyseren. Wij hebben gekozen voor Response time van de brandweer van New York en alle variabelen die we wilde hebben, zitten nu in een databestand. We hebben de data in SPSS gemerged gezien de hoeveelheid cases (we analyseren een heel jaar). Ons literatuur onderzoek wees op series van variabelen (indirecte relaties) met response time, daarom willen we een path analysis uitvoeren. SPSS ondersteund dit onvoldoende, vandaar dat we uitwijken naar R.

Voor de path analysis (en het berekenen van de Max likelihood, kijken of het model correct is) heb je een covariance matrix nodig. In R kan je dit makkelijk genereren, althans normaal gesproken.

Ik gebruik de volgende code om de spss file in R te zetten, de cov matrix te maken en aantal cases te definieren.

code:
1
2
3
4
5
6
7
8
9
10
11
12
ResponseTimeData = read.spss("file", to.data.frame = TRUE)

### variables that need to be excluded because not necessary
myvars <- names(ResponseTimeData) %in% c("Fire_ID","Hour_212223","Borough_5", "Loc_Zipcode", "Structural_Fires")
newdata <- ResponseTimeData[!myvars]

### There are some missing data points in a single variable (is this the correct form of putting this?)
ResponseFire <- na.omit(newdata)

### items for SEM
Num=length(ResponseFire[,1])
S=var(ResponseFire)


De matrix S resulteert in een waarschuwing
In var(ResponseFire) : NAs introduced by coercion
waarvan ik niet zou weten hoe ik die op moet lossen. Een covariance matrix met missing values kan je geen analyse mee uitvoeren...

Heeft iemand een idee hoe ik de NAs eruit kan krijgen?

de structuur van de data is het volgende;

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
'data.frame':   10755 obs. of  30 variables:
 $ Date_weekend         : num  1 1 1 1 1 1 0 0 0 0 ...
 $ Hour_012             : num  0 0 1 0 0 0 0 0 0 0 ...
 $ Hour_345             : num  0 0 0 1 0 0 0 0 0 0 ...
 $ Hour_678             : num  1 0 0 0 0 0 0 0 1 0 ...
 $ Hour_91011           : num  0 1 0 0 0 0 0 0 0 0 ...
 $ Hour_121314          : num  0 0 0 0 0 1 0 0 0 0 ...
 $ Hour_151617          : num  0 0 0 0 0 0 0 1 0 1 ...
 $ Hour_181920          : num  0 0 0 0 1 0 1 0 0 0 ...
 $ ResponseTime_fire    : num  350 56 396 300 321 284 253 238 310 345 ...
 $ Borough_1            : num  0 0 0 0 0 0 0 0 0 0 ...
 $ Borough_2            : num  0 0 0 0 0 0 0 0 0 0 ...
 $ Borough_3            : num  1 1 1 1 1 1 1 1 1 1 ...
 $ Borough_4            : num  0 0 0 0 0 0 0 0 0 0 ...
 $ TrafficVolume        : num  536 938 817 471 1326 ...
 $ MedicalEmergencies   : num  0 0 1 0 1 1 0 0 0 1 ...
 $ NonMedicalEmergencies: num  1 1 0 0 0 0 0 1 1 0 ...
 $ NonStructural_Fires  : num  0 0 0 1 0 0 0 0 0 0 ...
 $ Severity_fire        : Factor w/ 8 levels "First Alarm",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ Mean_Assigned_items  : num  1.333 2 0.333 0.333 0.333 ...
 $ Avg_Height           : num  64.4 64.4 64.4 64.4 64.4 ...
 $ Population           : num  2594676 2594676 2594676 2594676 2594676 ...
 $ Borough_Density      : num  14146 14146 14146 14146 14146 ...
 $ Rain                 : num  506 506 506 506 2262 ...
 $ Snow                 : num  6333 6333 6333 6333 24960 ...
 $ Windspeed            : num  2.34 2.34 2.34 2.34 3 3 2.4 2.4 2.4 2.7 ...
 $ Temp                 : num  0.1 0.1 0.1 0.1 1.65 1.65 2.1 2.1 2.1 5 ...
 $ Thunder              : num  0 0 0 0 0 0 0 0 0 0 ...
 $ Heavy_fog            : Factor w/ 2 levels "0","1": 2 2 2 2 1 1 1 1 1 1 ...
 $ Smoke_Haze           : num  1 1 1 1 0 0 0 0 0 1 ...
 $ Icy_Road             : num  0 0 0 0 0 0 0 0 0 0 ...
 - attr(*, "na.action")= 'omit' Named int [1:446870] 1 2 3 4 5 6 7 8 9 10 ...
  ..- attr(*, "names")= chr [1:446870] "1" "2" "3" "4" ...


tnx alvast!

Alle reacties


Acties:
  • +2 Henk 'm!

  • chengbondkwok
  • Registratie: Februari 2011
  • Laatst online: 20:27
Onderzoek eerst je dataset 'newdata' en vervolgens 'ResponseFire'. Je doet na.omit(newdata), maar blijkbaar bestaan nog steeds NAs in je dataset. Dus er gaat er iets fout in de opbouw 'newdata'.

Acties:
  • +1 Henk 'm!

  • pedorus
  • Registratie: Januari 2008
  • Niet online
MissDenise schreef op zaterdag 9 mei 2020 @ 13:38:
De matrix S resulteert in een waarschuwing
[...]
waarvan ik niet zou weten hoe ik die op moet lossen. Een covariance matrix met missing values kan je geen analyse mee uitvoeren...

Heeft iemand een idee hoe ik de NAs eruit kan krijgen?
Die foutmelding is dan typisch iets waar je op gaat zoeken. En dan kom je op dingen als https://stackoverflow.com...troducing-nas-by-coercion

Dan ga je het eens uitproberen:
> var(c(1,2),c(1,2))
[1] 0.5
> var(c(1,2),c(1,"A"))
[1] NA
Warning message:
In var(c(1, 2), c(1, "A")) : NAs introduced by coercion

Zelfde foutmelding. Er zit dus niet-numerieke data in ResponseFire waar de functie var niets mee kan. Die moet je weghalen of zien om te zetten naar wel-numerieke data.

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten


Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
chengbondkwok schreef op zaterdag 9 mei 2020 @ 13:57:
Onderzoek eerst je dataset 'newdata' en vervolgens 'ResponseFire'. Je doet na.omit(newdata), maar blijkbaar bestaan nog steeds NAs in je dataset. Dus er gaat er iets fout in de opbouw 'newdata'.
Ik snap wat je zegt, maar als je de structuur ziet van de data zou je zeggen dat er geen NA in zit....
pedorus schreef op zaterdag 9 mei 2020 @ 14:04:
[...]
Er zit dus niet-numerieke data in ResponseFire waar de functie var niets mee kan. Die moet je weghalen of zien om te zetten naar wel-numerieke data.
Hoe kom je er dan achter welke variabele het is?

dit is een summary van de variabelen

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
summary(ResponseFire)
  Date_weekend       Hour_012          Hour_345          Hour_678         Hour_91011      Hour_121314    
 Min.   :0.0000   Min.   :0.00000   Min.   :0.00000   Min.   :0.00000   Min.   :0.0000   Min.   :0.0000  
 1st Qu.:0.0000   1st Qu.:0.00000   1st Qu.:0.00000   1st Qu.:0.00000   1st Qu.:0.0000   1st Qu.:0.0000  
 Median :0.0000   Median :0.00000   Median :0.00000   Median :0.00000   Median :0.0000   Median :0.0000  
 Mean   :0.4484   Mean   :0.07773   Mean   :0.05188   Mean   :0.09428   Mean   :0.1459   Mean   :0.1609  
 3rd Qu.:1.0000   3rd Qu.:0.00000   3rd Qu.:0.00000   3rd Qu.:0.00000   3rd Qu.:0.0000   3rd Qu.:0.0000  
 Max.   :1.0000   Max.   :1.00000   Max.   :1.00000   Max.   :1.00000   Max.   :1.0000   Max.   :1.0000  
                                                                                                         
  Hour_151617      Hour_181920     ResponseTime_fire   Borough_1        Borough_2        Borough_3        Borough_4    
 Min.   :0.0000   Min.   :0.0000   Min.   :  17.0    Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :0.000  
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.: 218.0    1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.000  
 Median :0.0000   Median :0.0000   Median : 273.0    Median :0.0000   Median :0.0000   Median :0.0000   Median :0.000  
 Mean   :0.1781   Mean   :0.1648   Mean   : 304.8    Mean   :0.4269   Mean   :0.1754   Mean   :0.2672   Mean   :0.107  
 3rd Qu.:0.0000   3rd Qu.:0.0000   3rd Qu.: 344.0    3rd Qu.:1.0000   3rd Qu.:0.0000   3rd Qu.:1.0000   3rd Qu.:0.000  
 Max.   :1.0000   Max.   :1.0000   Max.   :3847.0    Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.000  
                                                                                                                       
 TrafficVolume    MedicalEmergencies NonMedicalEmergencies NonStructural_Fires           Severity_fire  
 Min.   :   0.0   Min.   :0.0000     Min.   :0.0000        Min.   :0.00000     First Alarm      :10668  
 1st Qu.: 175.6   1st Qu.:0.0000     1st Qu.:0.0000        1st Qu.:0.00000     All Hands Working:   42  
 Median : 312.0   Median :0.0000     Median :1.0000        Median :0.00000     Seventh Alarm    :   42  
 Mean   : 393.0   Mean   :0.4112     Mean   :0.5061        Mean   :0.02222     Second Alarm     :    3  
 3rd Qu.: 501.8   3rd Qu.:1.0000     3rd Qu.:1.0000        3rd Qu.:0.00000     Third Alarm      :    0  
 Max.   :1946.0   Max.   :1.0000     Max.   :1.0000        Max.   :1.00000     Fourth Alarm     :    0  
                                                                               (Other)          :    0  
 Mean_Assigned_items   Avg_Height       Population      Borough_Density          Rain              Snow        
 Min.   : 0.3333     Min.   : 10.57   Min.   : 475671   Min.   :    3.146   Min.   :    0.0   Min.   :    0.0  
 1st Qu.: 0.3333     1st Qu.: 20.70   1st Qu.:1630698   1st Qu.:13212.016   1st Qu.:    0.0   1st Qu.:    0.0  
 Median : 0.3333     Median : 26.28   Median :1630698   Median :14145.798   Median :  168.9   Median :    0.0  
 Mean   : 0.8586     Mean   : 28.92   Mean   :1898975   Mean   :18743.514   Mean   : 2829.3   Mean   :  216.2  
 3rd Qu.: 1.3333     3rd Qu.: 37.18   3rd Qu.:2594676   3rd Qu.:27578.324   3rd Qu.: 1068.0   3rd Qu.:    0.0  
 Max.   :14.0000     Max.   :106.01   Max.   :2594676   Max.   :27578.324   Max.   :65020.0   Max.   :43642.9  
                                                                                                               
   Windspeed          Temp          Thunder        Heavy_fog   Smoke_Haze        Icy_Road       
 Min.   :1.680   Min.   :-4.20   Min.   :0.00000   0:9235    Min.   :0.0000   Min.   :0.000000  
 1st Qu.:2.480   1st Qu.: 9.80   1st Qu.:0.00000   1:1520    1st Qu.:0.0000   1st Qu.:0.000000  
 Median :3.500   Median :16.70   Median :0.00000             Median :0.0000   Median :0.000000  
 Mean   :3.718   Mean   :14.90   Mean   :0.07615             Mean   :0.3013   Mean   :0.002603  
 3rd Qu.:4.600   3rd Qu.:21.65   3rd Qu.:0.00000             3rd Qu.:1.0000   3rd Qu.:0.000000  
 Max.   :8.440   Max.   :25.75   Max.   :1.00000             Max.   :1.0000   Max.   :1.000000

Acties:
  • +1 Henk 'm!

  • chengbondkwok
  • Registratie: Februari 2011
  • Laatst online: 20:27
missing <- newdata[rowSums(is.na(newdata)) > 0,]

Hiermee zou je alle NA rows kunnen opvangen. En dan kan je 'missing' bekijken, of je een bepaald patroon ziet.

Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
chengbondkwok schreef op zaterdag 9 mei 2020 @ 14:50:
missing <- newdata[rowSums(is.na(newdata)) > 0,]

Hiermee zou je alle NA rows kunnen opvangen. En dan kan je 'missing' bekijken, of je een bepaald patroon ziet.
Betekent het volgende stuk antwoord dan dat in de cases tussen [ ] de missing values zitten?

code:
1
2
3
4
5
6
[1] Date_weekend          Hour_012              Hour_345              Hour_678              Hour_91011           
 [6] Hour_121314           Hour_151617           Hour_181920           ResponseTime_fire     Borough_1            
[11] Borough_2             Borough_3             Borough_4             TrafficVolume         MedicalEmergencies   
[16] NonMedicalEmergencies NonStructural_Fires   Severity_fire         Mean_Assigned_items   Avg_Height           
[21] Population            Borough_Density       Rain                  Snow                  Windspeed            
[26] Temp                  Thunder               Heavy_fog             Smoke_Haze            Icy_Road

Acties:
  • +1 Henk 'm!

  • pedorus
  • Registratie: Januari 2008
  • Niet online
MissDenise schreef op zaterdag 9 mei 2020 @ 14:45:
Hoe kom je er dan achter welke variabele het is?
misschien geeft dit een hint:
> q=data.frame(a=c(1,2),b=c(1,"A"))
> apply(apply(q,2,as.numeric),2,anyNA)
    a     b 
FALSE  TRUE 
Warning message:
In apply(q, 2, as.numeric) : NAs introduced by coercion

Als ik naar de summary kijk zie ik er trouwens zo al twee die toch duidelijk afwijkend zijn omdat ze geen mean hebben. Ik zou niet weten wat var daarmee zou moeten doen.

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten


Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
pedorus schreef op zaterdag 9 mei 2020 @ 15:14:
[...]
> q=data.frame(a=c(1,2),b=c(1,"A"))
> apply(apply(q,2,as.numeric),2,anyNA)
    a     b 
FALSE  TRUE 
Warning message:
In apply(q, 2, as.numeric) : NAs introduced by coercion
Werkelijk geen idee wat je hiermee bedoelt.....
Als ik naar de summary kijk zie ik er trouwens zo al twee die toch duidelijk afwijkend zijn omdat ze geen mean hebben. Ik zou niet weten wat var daarmee zou moeten doen.
Ja, de fog en de severity, maar in mijn spss file zijn het wel gewoon normale numeric variabelen....

Acties:
  • 0 Henk 'm!

  • chengbondkwok
  • Registratie: Februari 2011
  • Laatst online: 20:27
MissDenise schreef op zaterdag 9 mei 2020 @ 15:11:
[...]


Betekent het volgende stuk antwoord dan dat in de cases tussen [ ] de missing values zitten?

code:
1
2
3
4
5
6
[1] Date_weekend          Hour_012              Hour_345              Hour_678              Hour_91011           
 [6] Hour_121314           Hour_151617           Hour_181920           ResponseTime_fire     Borough_1            
[11] Borough_2             Borough_3             Borough_4             TrafficVolume         MedicalEmergencies   
[16] NonMedicalEmergencies NonStructural_Fires   Severity_fire         Mean_Assigned_items   Avg_Height           
[21] Population            Borough_Density       Rain                  Snow                  Windspeed            
[26] Temp                  Thunder               Heavy_fog             Smoke_Haze            Icy_Road
Nee, het getal tussen [] geeft alleen weer hoeveel variabelen je nu geprint hebt op 1 regel. Op elke regel 5, vandaar dat je 1, 6, 11 etc ziet.

Gebruik je RStudio? Daar heb je een dataframe Explorer, waarbij je de data ook kan zien.

En anders zou je de dataset indien het mag ook kunnen delen? Dat werkt een stuk makkelijker.

[ Voor 4% gewijzigd door chengbondkwok op 09-05-2020 15:23 ]


Acties:
  • 0 Henk 'm!

  • Gropah
  • Registratie: December 2007
  • Niet online

Gropah

Admin Softe Goederen

Oompa-Loompa 💩

Waarschijnlijk state ik de obvious, maar gezien je dit voor een vak doet:

check ook even hoeveel data je weg filtert en pas op als dat te veel is of als je verbanden gaat leggen. En als het te veel is kun je altijd kijken naar data imputation.

Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
chengbondkwok schreef op zaterdag 9 mei 2020 @ 15:22:
Gebruik je RStudio? Daar heb je een dataframe Explorer, waarbij je de data ook kan zien.
Yes; als ik daar in mn variabelen kijk en allemaal aanklik komt er alleen een 0 naar boven en geen enkele keer een NA
En anders zou je de dataset indien het mag ook kunnen delen? Dat werkt een stuk makkelijker.
Yess is allemaal Open data die we zelf aan elkaar hebben gezet. De Spss file dan? een linkje naar een map delen of kan ik dat bestand ook hier gewoon droppen?

Acties:
  • 0 Henk 'm!

  • chengbondkwok
  • Registratie: Februari 2011
  • Laatst online: 20:27
MissDenise schreef op zaterdag 9 mei 2020 @ 15:30:
[...]

Yes; als ik daar in mn variabelen kijk en allemaal aanklik komt er alleen een 0 naar boven en geen enkele keer een NA


[...]


Yess is allemaal Open data die we zelf aan elkaar hebben gezet. De Spss file dan? een linkje naar een map delen of kan ik dat bestand ook hier gewoon droppen?
Ja het databestand wat je inlaad in R. Een Dropbox linkje of iets vanwaar we het kunnen downloaden.

Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
https://drive.google.com/...FloOfItuawE5Lg9EYqwDMGS-y

een drive linkje met het SPSS bestand.

Ik had de fog al aangepast weer, weet niet waar dat mis was gegaan, maar die geeft wel een mean nu,
MissDenise schreef op zaterdag 9 mei 2020 @ 15:19:
Ja, de fog en de severity, maar in mijn spss file zijn het wel gewoon normale numeric variabelen....
De severity krijg ik niet voor elkaar... in SPSS wel tho...

[ Voor 63% gewijzigd door MissDenise op 09-05-2020 15:37 ]


Acties:
  • +1 Henk 'm!

  • pedorus
  • Registratie: Januari 2008
  • Niet online
MissDenise schreef op zaterdag 9 mei 2020 @ 15:19:
Ja, de fog en de severity, maar in mijn spss file zijn het wel gewoon normale numeric variabelen....
Ik vraag me echt af hoe severity daar numeriek kan zijn. Dat ding heeft waardes als First Alarm, All Hands Working en Seventh Alarm waar ik niet eens een volgorde in kan ontdekken..

Met zo'n variabele kan var niets. Als je de foute variabelen dropt, dan zal het wel werken gok ik, als in
var(subset(ResponseFire,select=-c(Severity_fire,Heavy_fog))))

Voor de rest lijkt het mij handig om een tutorial te gaan volgen in R en van wat functies zoals var en apply eens door de help te kijken met
?var
?apply

De functie var heeft bijvoorbeeld een parameter na.rm die standaard op FALSE staat die nuttig kan zijn.

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten


Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
pedorus schreef op zaterdag 9 mei 2020 @ 15:43:
[...]

Ik vraag me echt af hoe severity daar numeriek kan zijn. Dat ding heeft waardes als First Alarm, All Hands Working en Seventh Alarm waar ik niet eens een volgorde in kan ontdekken..
In SPSS hebben de values die labels, R neemt op de een of andere manier de labels over en niet de values lijkt het...
Met zo'n variabele kan var niets. Als je de foute variabelen dropt, dan zal het wel werken gok ik, als in
var(subset(ResponseFire,select=-c(Severity_fire,Heavy_fog))))
Helaas geeft SPSS wel een hoge (en significante) correlatie voor deze variabele dus dat kan niet.
Voor de rest lijkt het mij handig om een tutorial te gaan volgen in R en van wat functies zoals var en apply eens door de help kijkt met
?var
?apply

De functie var heeft bijvoorbeeld een parameter na.rm die standaard op FALSE staat die nuttig kan zijn.
Ik ken de theorie van var, en had ook al geprobeerd met m op TRUE zetten maar dat mocht niet baten. Van de Apply heb ik nooit gehoord, maar zal me daar eens in verdiepen

Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
Ik heb nu van de Severity in SPSS de labels weggehaald en nu krijg ik geen warning meer in mn cov matrix.
Yay!
Ik had het model al geschreven, en de results zouden nu appeltje eitje moeten zijn...

Echter krijg ik nu een error als ik om output vraag.
code met model (sorry, het is een draak van een model...)

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
Model <- matrix(c(
  "Date_weekend -> ResponseTime_fire", "p1", NA,
  "Severity_fire -> Mean_Assigned_items", "p2", NA,
  "MedicalEmergencies -> Mean_Assigned_items", "p3", NA,
  "NonMedicalEmergencies -> Mean_Assigned_items", "p4", NA,
  "NonStructural_Fires -> Mean_Assigned_items", "p5", NA,
  "Mean_Assigned_items -> ResponseTime_fire", "p6", NA,
  "MedicalEmergencies -> ResponseTime_fire", "p7", NA,
  "NonMedicalEmergencies -> ResponseTime_fire", "p8", NA,
  "NonStructural_Fires -> ResponseTime_fire", "p9", NA,
  "Hour_012 -> ResponseTime_fire", "p10", NA,
  "Hour_345 -> ResponseTime_fire", "p11", NA,
  "Hour_678  -> ResponseTime_fire", "p12", NA,
  "Hour_91011 -> ResponseTime_fire", "p13", NA,
  "Hour_121314 -> ResponseTime_fire", "p14", NA,
  "Hour_151617 -> ResponseTime_fire", "p15", NA,
  "Hour_181920 -> ResponseTime_fire", "p16", NA,
  "Hour_012 -> TrafficVolume", "p17", NA,
  "Hour_345 -> TrafficVolume", "p18", NA,
  "Hour_678  -> TrafficVolume", "p19", NA,
  "Hour_91011 -> TrafficVolume", "p20", NA,
  "Hour_121314 -> TrafficVolume", "p21", NA,
  "Hour_151617 -> TrafficVolume", "p22", NA,
  "Hour_181920 -> TrafficVolume", "p23", NA,
  "Rain -> TrafficVolume", "p24", NA,
  "Snow -> TrafficVolume", "p25", NA,
  "Windspeed -> TrafficVolume", "p26", NA,
  "Temp -> TrafficVolume", "p27", NA,
  "Thunder -> TrafficVolume", "p28", NA,
  "Heavy_fog -> TrafficVolume", "p29", NA,
  "Smoke_Haze -> TrafficVolume", "p30", NA,
  "Icy_Road -> TrafficVolume", "p31", NA,
  "TrafficVolume -> ResponseTime_fire", "p32", NA,
  "Borough_1 -> Avg_Height", "p33", NA,
  "Borough_2 -> Avg_Height", "p34", NA,
  "Borough_3 -> Avg_Height", "p35", NA,
  "Borough_4 -> Avg_Height", "p36", NA,
  "Borough_1 -> Borough_Density", "p37", NA,
  "Borough_2 -> Borough_Density", "p38", NA,
  "Borough_3 -> Borough_Density", "p39", NA,
  "Borough_4 -> Borough_Density", "p40", NA,
  "Avg_Height -> TrafficVolume", "p41", NA,
  "Avg_Height -> Borough_Density", "p42", NA,
  "Population -> Borough_Density", "p43", NA,
  "Borough_Density ->ResponseTime_fire", "p44", NA,
  "Mean_Assigned_items <-> Mean_Assigned_items", "e1", NA,
  "TrafficVolume <-> TrafficVolume", "e2", NA,
  "Avg_Height <-> Avg_Height", "e3", NA,
  "Borough_Density <-> Borough_Density", "e4", NA,
  "ResponseTime_fire <-> ResponseTime_fire", "e5", NA
), ncol=3, byrow=TRUE)

Model

Output=sem(Model,S,Num,fixed.x=c("Date_weekend","Hour_012","Hour_345","Hour_678","Hour_91011","Hour_121314",
                               "Hour_151617","Hour_181920","Borough_1","Borough_2","Borough_3","Borough_4",
                               "MedicalEmergencies","NonMedicalEmergencies","NonStructural_Fires","Severity_fire",
                               "Population","Rain","Snow","Windspeed","Temp","Thunder","Heavy_fog","Smoke_Haze",
                               "Icy_Road"))


en de error:
Error in solve.default(C[ind, ind]) :
system is computationally singular: reciprocal condition number = 1.7342e-17
In addition: Warning messages:
1: In sem.default(ram, S = S, N = N, raw = raw, data = data, pattern.number = pattern.number, :
S is numerically singular: expect problems
2: In sem.default(ram, S = S, N = N, raw = raw, data = data, pattern.number = pattern.number, :
S is not positive-definite: expect problems

Acties:
  • 0 Henk 'm!

  • chengbondkwok
  • Registratie: Februari 2011
  • Laatst online: 20:27
MissDenise schreef op zaterdag 9 mei 2020 @ 15:34:
https://drive.google.com/...FloOfItuawE5Lg9EYqwDMGS-y

een drive linkje met het SPSS bestand.

Ik had de fog al aangepast weer, weet niet waar dat mis was gegaan, maar die geeft wel een mean nu,

[...]


De severity krijg ik niet voor elkaar... in SPSS wel tho...
Thanks. Als ik de data probeer in te laden met de 'haven' library voor R om .sav bestanden in te lezen, dan krijg ik bij TrafficVolume en Avg_Height allemaal NA's

code:
1
2
3
4
5
6
7
8
setwd('~/Downloads')

install.packages('haven')
library(haven)

data <- read_sav("response time_final variables.sav")

sapply(data, function(x) sum(is.na(x)))

Acties:
  • 0 Henk 'm!

  • MissDenise
  • Registratie: Mei 2019
  • Laatst online: 17-06-2022
chengbondkwok schreef op zaterdag 9 mei 2020 @ 18:33:
Als ik de data probeer in te laden met de 'haven' library voor R om .sav bestanden in te lezen, dan krijg ik bij TrafficVolume en Avg_Height allemaal NA's
Ik gebruikte het "foreign" package, dat werkte prima, kreeg alleen voor traffic volume idd de NA, maar die wist ik dat er waren.

Ondertussen is het maken van de cov matrix dus gelukt, maar heb ik nu last van de error

Acties:
  • 0 Henk 'm!

  • pedorus
  • Registratie: Januari 2008
  • Niet online
Wat meestal het geval is bij dit soort fouten is dat je verkeerde startwaardes hebt, een verkeerde optimizer gebruikt, of in dit geval waarschijnlijker inputkolommen hebt die (vrijwel) lineaire combinaties van elkaar zijn. Ik denk dat dit model veels te veel attributen heeft, en dat er eerst een aantal zullen moeten weg worden gegooid om een zinniger model te krijgen (keyword: feature selection). Je zou nog wat kunnen proberen met een andere optimizer, of debug=true en par.size="start.values", maar gok dat dit zinloos is met zoveel attributen en dit type model.

Ik ken het sem package niet, wellicht is OpenMx R package beter in dit soort situaties (welke ik ook niet/zelden heb gebruikt, maar er beter uit ziet).

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten

Pagina: 1