2016-11-28 2 views
0

데이터 마이닝 문제가 있으며 접근 방법에 대한 제안/의견을 보내고 싶습니다.기계 학습 _ 클래스 검색

다중 클래스 문제이므로 분류 기준을 작성하고 새로운 데이터 포인트에 대해 알고리즘이 데이터 포인트가 기존 클래스에 속하는지 아니면 새로운 클래스 (C + 1)에 속하는지 여부를 인식 할 수 있어야합니다.

현재 접근법 특정 클래스의 확률이> 60 %이면 레코드가 해당 클래스로 분류되고 클래스가 60 % 이상인 경우 레코드가 새 레코드로 분류됩니다 클래스 (C + 1).

그러나 새 클래스 인식의 정확도는 낮습니다 (~ 30 ~ 40 %). 나는 C5.0 boosted decision tree 알고리즘을 사용했다.

기능의 95 %가 이진 데이터를 가지고 있습니다.

다른 대안 접근 방식이나 알고리즘을 제안 할 수 있습니까? R 하나 excelent 옵션의 경우에 대한

스리랑카

+0

임계 값을 60 %로 변경하고 정확도에 어떤 영향이 있는지 확인하십시오. –

+0

의사 결정 트리는 좋은 옵션처럼 들립니다. –

+0

감독 학습 문제입니까? 즉, 데이터에 레이블이 지정되었거나 레이블이 지정되지 않았습니까? –

답변

0

이 많은 감독 분류 대안은 e1071 패키지를 사용하여 지원 벡터 기계 분류입니다. 나는 또한 softmax 신경 네트워크를 시도하고 평가하는 것이 좋습니다.