2017-01-18 1 views
0

대부분의 문서가 음수 인 태그가 지정된 데이터 세트에서 감정 분류기를 훈련하는 경우 분류기가 동일한 부정적인 의견 배포로 교육을 받아야합니까 ~ 95 %라고 말하고 싶습니까? 그렇지 않다면 데이터 세트를 "정상화"하는 다른 옵션은 무엇입니까?정서 분석 교육 데이터를 고르게 분배해야합니까?

답변

0

당신은 어떤 유형의 분류자를 가지고 있는지 말하지 않지만 일반적으로 훈련 세트의 분포를 정규화 할 필요는 없습니다. 그러나 대개 데이터가 많을수록 과도한 피팅을 방지하기 위해 블라인드 테스트를 수행해야합니다.

귀하의 경우 부정적인 의견에 대해 강력한 분류자를 갖게되며 매우 큰 표본 크기가 아니라면 더 약한 긍정적 분류자를 갖게됩니다. 샘플 크기가 충분히 크다면 어쨌든 네거티브 데이터를 너무 많이 맞추기 시작할 수도 있기 때문에 큰 문제는 아닙니다.

간단히 말해서 실제 알고리즘과 데이터 세트의 크기 및 데이터 세트의 다양성을 모른 채 말할 수는 없습니다.

가장 좋은 방법은 훈련 데이터의 10 % (무작위로)와 같은 것을 뜯어 내고 90 % 하위 집합에서 훈련을받은 후 분류자가 어떻게 수행하는지 확인하는 것입니다.

+0

핵심 질문은 정말로 "어떤 분류 알고리즘이 95 %/5 % 범위의 강력하게 조정 된 데이터에 적합합니까?"입니다. 답을 통해이 부분을 제기 할 수 있습니까? 최소한 nltk (Naive Bayes, 최대 엔트로피, 퍼셉트론 등)에 의해 제공되는 알고리즘 중에서, – alexis

관련 문제