2013-03-12 5 views
0

일부 정 성적 예측 변수가있는 선형 회귀 모델을 실행하는 데 큰 데이터 집합이 있습니다. 나는 데이터 세트 WN을 호출하고 정 성적 변수는 OState와 DState (미국의 미국)입니다. 다음은 WN 내 OState 및 DState 62 개 고유 한 값이 있음을 볼 수 있습니다 :회귀 요약 출력에 나타나지 않는 정 성적 예측 변수 R

> unique(WN$OState) 
[1] NY MA PA DE DC VA MD WV NC RI SC NH GA FL AL TN MS ME KY OH IN MI VT IA WI MN SD ND MT CT IL MO KS NE NJ LA AR OK TX CO WY ID UT AZ NM NV CA OR WA 
62 Levels: AA AE AK AL AP AR AS AZ CA CO CT DC DE FL FM GA GU HI IA ID IL IN KS KY LA MA MD ME MH MI MN MO MP MS MT NC ND NE NH NJ NM NV NY OH OK OR PA PR PW RI SC SD TN TX UT VA VI VT WA ... WY 
> unique(WN$DState) 
[1] MA RI NH ME VT CT NY NJ PA DE DC VA MD WV NC SC GA FL AL TN MS KY OH IN MI IA WI MN SD ND MT IL MO KS NE LA AR OK TX CO WY ID UT AZ NM NV CA OR WA 
62 Levels: AA AE AK AL AP AR AS AZ CA CO CT DC DE FL FM GA GU HI IA ID IL IN KS KY LA MA MD ME MH MI MN MO MP MS MT NC ND NE NH NJ NM NV NY OH OK OR PA PR PW RI SC SD TN TX UT VA VI VT WA ... WY 

지금은 거리와 속도를 예측하는 회귀 모델을 실행하고는, OState 및 DState는 다음과 같이

> WN.LR = lm(WN$Rate~WN$Distance+WN$OState+WN$DState) 

회귀 요약을 확인할 때 48 개의 OState 및 DState 예측 자만 채워지고 나머지 14 개가 누락 된 것으로 나타났습니다. 요약 출력의 일부는 아래에 나와 있습니다. 내가 = "AL"OState와 실체를 확인할 때 나는 6000 행이 볼, 한편

> summary(WN.LR) 

Call: 
lm(formula = WN$Rate ~ WN$Distance + WN$OState + WN$DState) 

Residuals: 
    Min  1Q Median  3Q  Max 
-2370.3 -218.4 -18.9 170.8 9105.7 

Coefficients: 
       Estimate Std. Error t value Pr(>|t|)  
(Intercept) 1.208e+03 6.632e+00 182.171 < 2e-16 *** 
WN$Distance 1.626e+00 3.111e-03 522.722 < 2e-16 *** 
WN$OStateAR 2.000e+02 7.294e+00 27.419 < 2e-16 *** 
WN$OStateAZ 1.981e+02 8.372e+00 23.667 < 2e-16 *** 
WN$OStateCA 1.056e+02 7.919e+00 13.340 < 2e-16 *** 
WN$OStateCO 1.323e+02 7.332e+00 18.043 < 2e-16 *** 
WN$OStateCT -2.019e+02 1.827e+01 -11.048 < 2e-16 *** 
WN$OStateDC 5.711e+02 2.178e+01 26.223 < 2e-16 *** 

:

> WNnew<-subset(WN,OState=="AL") 
> nrow(WNnew) 
[1] 6213 
는 예를 들어, 당신은 그 OStateAL 출력에 빠져 볼 수 있습니다

설명이 있으십니까?

답변

2

이것은 앨리어싱 (alias) (모델이 확인되지 않음)으로 인한 것 같습니다. 예를 들어, 매사추세츠는 DStateOState 변수에 모두 포함되어 있으므로 두 치료법의 효과를 구분할 수 없습니다.

1

모델을 만들 때 경고 목록, 즉 계수 목록의 모든 NA를 읽지 않았습니다. 별칭이 지정된 용어는 실행하면 나열됩니다.

WN.LR # always look at the output of `lm` as well as that of `summary.lm` 

... 출력을 읽지 못했습니다. 고려해야 할 것은 DState가 OState와 동일한 OState를 "동일한"레벨로 만드는 것입니다. 그런 다음 차이가없는 모든 상태를 캡처 할 수 있습니다.

관련 문제