다음 문제로 격려했습니다. 많은 텍스트 문서를 분류하려고합니다.클래스 수가 다른 여러 클래스에 잘못 분류 된 경우
20 개의 클래스가 있습니다 : 1 정상, 19 비정상. Naïve bayes 분류를 사용하면 다음과 같은 결과가 나옵니다. 분류는 19 개의 클래스에서 잘 작동하지만 "보통"클래스의 경우 많은 잘못된 분류 오류가 있습니다. "정상"범주의 거의 모든 사례가 다른 (비정상적인) 범주로 분류되었습니다 .
내 질문이 있습니다
- 가 어떻게 "정상"클래스에 대한 훈련 세트를 선택해야 하는가? (이제, "normal"카테고리의 텍스트 분류 자 세트에 을 1/23의 비율로 맞 춥니 다).
- 분류 기준을 다음과 같이 지정할 수 있습니다. 등급에 속할 확률이 몇 가지 클래스보다 작 으면 분류 기준에서이 샘플에 대해
카테고리를 설정해야합니다 (예 : 정상).
감사합니다. 많이 개선되었습니다. 설명 : 예를 들어, 나는 각 카테고리에 대해 1000 세트의 예제를 연습용으로 사용합니다. 그래서, 나는 19 개의 카테고리 (비정상적인 카테고리)에 대해 1000 개의 예제를 사용하고 일반 카테고리에 대해 19,000 개의 예제를 사용합니다. 균형 잡힌 훈련 세트를 얻고 큰 발전을 이룩합니다. – Simplex