데이터 마이닝 문제가 있으며 접근 방법에 대한 제안/의견을 보내고 싶습니다.기계 학습 _ 클래스 검색
다중 클래스 문제이므로 분류 기준을 작성하고 새로운 데이터 포인트에 대해 알고리즘이 데이터 포인트가 기존 클래스에 속하는지 아니면 새로운 클래스 (C + 1)에 속하는지 여부를 인식 할 수 있어야합니다.
현재 접근법 특정 클래스의 확률이> 60 %이면 레코드가 해당 클래스로 분류되고 클래스가 60 % 이상인 경우 레코드가 새 레코드로 분류됩니다 클래스 (C + 1).
그러나 새 클래스 인식의 정확도는 낮습니다 (~ 30 ~ 40 %). 나는 C5.0 boosted decision tree 알고리즘을 사용했다.
기능의 95 %가 이진 데이터를 가지고 있습니다.
다른 대안 접근 방식이나 알고리즘을 제안 할 수 있습니까? R 하나 excelent 옵션의 경우에 대한
스리랑카
임계 값을 60 %로 변경하고 정확도에 어떤 영향이 있는지 확인하십시오. –
의사 결정 트리는 좋은 옵션처럼 들립니다. –
감독 학습 문제입니까? 즉, 데이터에 레이블이 지정되었거나 레이블이 지정되지 않았습니까? –