2014-10-04 2 views
0

저는 데이터 마이닝의 초보자입니다. 나는 weka를 사용하고있다. 데이터 세트에는 많은 변수가 많은 수준 (1 ~ 8) 인 109 개의 변수가 있습니다. 내 질문입니다 :weka의 여러 수준의 범주 형 변수

1. 나는 8 진수로 8 개 레벨까지 (최대 8 개 레벨로) 변환하거나 그대로 사용합니까?

참고 : 로지스틱 회귀, 임의 포리스트, 순진 베이 알고리즘을 사용합니다.

답변

0

이들은 그대로 작동해야하지만 범주 형 데이터를 이진 형식으로 사전 처리하는 경우 결과가 다를 수 있습니다.

로지스틱 회귀, 임의 숲 및 Naive Bayes는 Weka에서 명목 값을 상당히 사용하는 것으로 보입니다. 속성을 바이너리로 변환하면 이러한 모델 중 일부는 후드에서 다르게 동작 할 수 있습니다. Logistic Regression이 많은 차이를 만들지는 않을 것이라고 생각하지만, Random Forest 나 Naive Bayes에 대해서는 확실하지 않습니다.

관련 문제