5

선형 회귀 모델을 조합하려하지만 내 피쳐 중 일부는 숫자가 아닙니다. "자동차 색상"은 다른 반면 예를 들면. "엔진 크기". 숫자가 아닌 경우 입력 기능으로 추가 할 때 이것을 나타내는 방법이 확실하지 않습니다. 이 일을 생각할 수있는 유일한 방법은 각 색상을 다른 값으로 표현하는 것입니다. (빨강 = 1, 파랑 = 2, 녹색 = 3 ...) 그러나 이것은 녹색이 빨간색보다 "더 좋음"을 의미하므로 받아 들일 수없는 것처럼 보입니다.카테고리를 피쳐로 사용하는 선형 회귀

아무도 도와 드릴 수 있습니다 ... 나는 자바로 이것을 구현하고 있으므로이 언어로 표현 된 알고리즘이나 언어와 무관 한 알고리즘을 고맙게 생각합니다.

+0

지금까지 ... 나는 범주 형이 아닌 추천 기능 만 사용했습니다. – JLove

답변

9

더미 코드을 사용하는 한 가지 방법은 효과 코딩입니다.

자세한 내용은이 기사를 참조하십시오. 저자가 내가 할 수있는 것보다 잘 설명했다고 생각합니다. 나는이 솔루션은 언어 독립적 인 카테고리에 속하는 것 같아요

Coding Categorical Variables in Regression Models: Dummy and Effect Coding by Resmi Gupta

)

내가 자동차 색상은 3 값을 취할 수 있으리라 믿고있어 (자동차의 색상을 인코딩하려면 : 빨강, 파랑, 녹색) 다음과 같이

당신은 그것을 인코딩 할 수 있습니다 :

Color Dummy_Var_One Dummy_Var_Two 

Red  1    0 
Blue  0    1 
Green  0    0 

을 위 표 Green에서 참조 레프 될 것이다 엘자. 당신의 색깔이 n 값을 취하는 경우 n-1 더미 변수를 포함해야합니다. 이 n 범주 n 변수를 만들 것입니다하지만

자바 구현은 Weka 필터 NominalToBinary에서 찾을 수 있습니다.

+0

환상적인 응답 ... 건배 – JLove

+0

왜 thre 더미 변수를 사용하는지 알아야합니다 .IS_RED, IS_GREEN & IS_BLUE ... 더 독립적 인 결과를 제공하거나 차이가 없습니다. –