2013-04-17 4 views
0

~ 40 개의 독립 변수가있는 상당히 큰 데이터 세트에서 팬다를 사용하여 다 변수 회귀 분석을 실행 중입니다. 그러나 이러한 변수 중 일부는 팬더가 계수를 계산할 수는 있지만 표준 오차는 계산할 수 없습니다 (따라서 t-stat, p-value 등이 아닙니다). 여기 회귀 출력의 일부입니다 : 유모와 모든 바르 이진 변수팬더 회귀 분석에서 일부 표준 오차에 대해 '나노'를 계산합니까?

... 
var1  0.0000  0.0001  0.46  0.6488 -0.0002  0.0002 
var2  25.8603  nan  nan  nan  nan  nan 
var3  9.5578  nan  nan  nan  nan  nan 
-------------------------------------------------------------------------------- 
var4  -4.7974  nan  nan  nan  nan  nan 
var5  2.9619  nan  nan  nan  nan  nan 
var6  1.9343  nan  nan  nan  nan  nan 
var7 -24.8932  nan  nan  nan  nan  nan 
var8  4.7703  nan  nan  nan  nan  nan 
-------------------------------------------------------------------------------- 
var9 -16.0344  nan  nan  nan  nan  nan 
var10  5.8313  nan  nan  nan  nan  nan 
var11 -3.1322  nan  nan  nan  nan  nan 
var12  5.5747  1.4304  3.90  0.0001  2.7711  8.3784 
var13  4.0470  1.8455  2.19  0.0284  0.4299  7.6641 
... 

참고하지만, 표준 오류가있는 변수의 일부는 이진 등이 정상 연속 변수입니다.

이전에 경험이있는 사람이 있습니까?

+1

동일한 동작을 나타내는 소스 데이터의 하위 집합을 게시 할 수 있습니까? – Dougal

답변

0

대답을 찾았는지 생각해보십시오. '나노'문제가있는 이진 변수는 다중 공선 성을 갖습니다. 모든 데이터 요소는 해당 집합의 더미 변수 중 하나에 정확히 1입니다. 이 더미 변수 중 하나를 제거하면 문제가 해결되었습니다! 팬더가 여전히이 데이터로 물건을 계산하려 할 것이라고 생각하지 않았지만 그렇지 않습니다!

관련 문제