2017-09-13 3 views
0

Python/Scikit-learn GLM 모델에서 범주 형 변수를 그대로 사용할 수 있습니까? 나는 one-hot 인코딩의 대안을 깨닫는다. 이 방법의 문제점은 전체 변수를 테스트 할 수 없다는 것입니다. 인코딩 된 변수 (부분 변수) 만 테스트 할 수 있습니다.파이썬/Scikitlearn의 범주 형 변수

왜 SAS가 파이썬이 아닌 그러한 변수를 처리 할 수 ​​있습니까? 제발 조언.

+2

궁극적으로 SAS가 "후드 아래"하고있는 것을 이해해야합니다. 컴퓨터는 "범주"가 아닌 수치 값을 처리합니다. – dartdog

답변

2

실제로 보유한 데이터에 따라 다릅니다. 예를 들어, , mediumhigh과 같은 범주 형 변수 (Ordinal Values)에 일종의 순서를 할당 할 수 있으면 1, 2 및 3과 같은 숫자를 할당 할 수 있습니다. 그러나 순서가 없으면 조금 더 까다로워집니다. 도대체 무엇이. One-hot Encoding 외에도 Helmert Coding Scheme을 시도 할 수 있습니다. 더 많은 분석을 위해 this blog post을 읽을 수도 있습니다. sklearn에서 다양한 코딩 방식은 범주 형 변수도있다 :

당신은 다른 Categorical Encoders in Sklearn here에 대한 자세한 내용을보실 수 있습니다.

관련 문제