2014-06-24 3 views
0

다음 문제로 격려했습니다. 많은 텍스트 문서를 분류하려고합니다.클래스 수가 다른 여러 클래스에 잘못 분류 된 경우

20 개의 클래스가 있습니다 : 1 정상, 19 비정상. Naïve bayes 분류를 사용하면 다음과 같은 결과가 나옵니다. 분류는 19 개의 클래스에서 잘 작동하지만 "보통"클래스의 경우 많은 잘못된 분류 오류가 있습니다. "정상"범주의 거의 모든 사례가 다른 (비정상적인) 범주로 분류되었습니다 .

내 질문이 있습니다

  • 가 어떻게 "정상"클래스에 대한 훈련 세트를 선택해야 하는가? (이제, "normal"카테고리의 텍스트 분류 자 ​​세트에 을 1/23의 비율로 맞 춥니 다).
  • 분류 기준을 다음과 같이 지정할 수 있습니다. 등급에 속할 확률이 몇 가지 클래스보다 작 으면 분류 기준에서이 샘플에 대해
    카테고리를 설정해야합니다 (예 : 정상).

답변

1

나는 전체 그림을 가지고 있을지 모르겠다. 그러나 실제로 볼륨과 그 이전에 균형이 맞지 않는 "정상"과 "비정상"2 클래스 만있는 것처럼 보인다.

첫 번째 질문에 대한 답을 얻기 위해 정상적인 수업 (동일한 "정상"인스턴스를 여러 번 통과시켜 더 큰 볼륨을 "가짜"로 넘김)을 과도하게 샘플링하고 실적이 향상되는지 확인하려고합니다.

두 번째 질문이 없습니다.

+0

감사합니다. 많이 개선되었습니다. 설명 : 예를 들어, 나는 각 카테고리에 대해 1000 세트의 예제를 연습용으로 사용합니다. 그래서, 나는 19 개의 카테고리 (비정상적인 카테고리)에 대해 1000 개의 예제를 사용하고 일반 카테고리에 대해 19,000 개의 예제를 사용합니다. 균형 잡힌 훈련 세트를 얻고 큰 발전을 이룩합니다. – Simplex

2

각 클래스에 대한 인스턴스의 불균형이 대부분 문제를 일으킬 수 있습니다. 불균형 인스턴스의 문제를 피하기 위해 최종 클래스 추정에 앞서 일종의 사전 정의가 필요하며 상호 유효성 검사를 통해 이전의 외래 매개 변수를 미세 조정해야합니다. 나는 Dirichlet Prior가 다중 명칭 NB에 사용되고 있다고 생각한다.

관련 문제