2012-03-31 2 views
2

모델을 단일 비율 (종속) 변수에 맞추기 위해 선택하려고하는 9 개의 연속 독립 변수가있는 데이터 세트가 있습니다. 점수.R : 백분율 종속 변수, 심각한 공선 성을 가진 다중 회귀 분석을위한 변수 선택

불행히도, 여러 변수 사이에 심각한 공선 성이 있다는 것을 알고 있습니다.

내가 변수 선택을위한 R의 stepAIC 기능을 사용하여 시도했지만, 그 방법은, 이상한, 변수가 방정식에 나열되는 순서에 민감한 것 같다 ...

가 여기 내 R 코드입니다 (이 비율 데이터의 c를 B/I 점수에 대한 로짓 변환) 사용 어떤 이유로

library(MASS) 
library(car) 

data.tst = read.table("data.txt",header=T) 
data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) 

step = stepAIC(data.lm, direction="both") 
summary(step) 

를 I 방정식의 시작 부분에 나열된 변수가 stepAIC 함수에 의해 선택된 끝나게 것을 발견하고, 예를 들어 Var9를 먼저 나열하여 물결표를 따라 결과를 조작 할 수 있습니다.

여기에 모델을 적용하는 데 더 효과적인 (논쟁의 여지가없는) 방법은 무엇입니까? 저는 실제로 선형 회귀 분석을 사용하여 죽은 것은 아닙니다. 원하는 유일한 것은 9 개의 변수 중 어느 것이 실제로 Score 변수의 변형을 주도하는지 이해할 수 있어야한다는 것입니다. 이 9 가지 변수의 공선성에 대한 강력한 가능성을 고려한 방법이 바람직합니다.

난이 어려운 질문입니다 알지만, 난 정말 당신이 그것을 보면하는 데 시간을내어 주셔서 감사합니다 ...

보다도, 줄리

+0

줄리, 이것은 여기 offtopic 아니지만, stackoverflow.com과 정확히 같은 회사의 사이트 인 stats.stackexchange.com에서 훨씬 더 정교한 답변을 얻을 것이라고 생각합니다. 원할 경우 귀하의 질문에 자동으로 이주되도록 신고 할 수 있습니다. – TMS

+0

안녕하세요. Thomas - 대단히 감사합니다. 나는 앞서 가서 stats.stackexchange.com에서 재 게시했다. 감사! – Julie

+0

줄리, 아니, 당신이 이것을해서는 안되며, 싫어한다. 이주를 위해 그것을 표시하는 것이 더 좋다. – TMS

답변

0
당신은 주성분 분석을 할 수 있습니다

(통계 : prcomp).

Avril Coghlan의 "다 변수 분석을위한 R 작은 책"섹션 2.7을 참조하십시오. 그는 다양한 와인 생산자에게 다운로드 한 데이터를 사용하여 좋은 예를 제시합니다.

+0

안녕하세요, 제안에 감사드립니다. – Julie

0

베이지안 모델 평균화 (R에서 BMS 패키지 사용)로 진행했습니다.