2014-11-20 2 views
-2

lm을 사용하여 회귀 함수를 작성할 때 어떤 변수를 범주 형 또는 2 진수로 명시해야합니까? 우리가해야한다면, 어떻게해야합니까? 감사.lm의 범주 형/이진 변수 처리

+1

'factor'를 사용하십시오 ... – Roland

+0

아마도이 질문에 대한 답변을 http://stackoverflow.com/questions/26822526/regarding-handling-many-binary-independent-variables-in-lm/26822927#26822927 – agenis

답변

0

또 다른 중요한 질문이 제기됩니다. 변수가 숫자 또는 범주 형 데이터 속성인지 또는 분석 속성인지 여부입니다.

통계 계산 초기에는 범주 형 변수를 숫자로 저장하는 것이 쉬웠으므로 이러한 변수가 의미를 갖는 숫자가 아닌 범주를 실제로 나타낼 수 있도록 지정해야합니다. 이것을 지정하는 일반적인 장소는 분석 시점이었습니다. 결과적으로 변수 유형이 분석의 속성이된다는 유산이 생깁니다.

R (및 기타)은 훨씬 더 현대적인 언어이며 데이터 자체의 속성이어야한다는 접근 방식을 취합니다. 이렇게하면이 지정을 한 번 및 모든 결과 분석/그래프/표/등으로 지정할 수 있다는 점에서 단순화됩니다. 변수를 적절히 처리합니다. 나는이 접근법이 훨씬 더 직관적이고 간단하다고 생각합니다. 특정 변수가 하나의 분석에 대해 범주화되어 있다면, 모든 분석, 그래프, 테이블 등에 대해 범주화되어서는 안되는 것입니다.

이 질문에 대한 답변은 길지만 데이터 분석을 위해 지정하는 방법에서 데이터 자체의 속성을 지정하는 방법을 생각하는 데 도움이됩니다. 분석 전에 데이터가 (factor, ordered 또는 기타 기능을 사용하는) 요인으로 지정되면 R 분석/그래프/표 도구가 올바른 작업을 수행합니다. 데이터의 모양과 입력/가져 오기 방법에 따라이 변환이 이미 완료되었을 수 있습니다.

범주의 순서와 같은 다른 속성도 분석/그래프/테이블/등이 아닌 데이터의 속성이어야합니다.