대부분의 문서가 음수 인 태그가 지정된 데이터 세트에서 감정 분류기를 훈련하는 경우 분류기가 동일한 부정적인 의견 배포로 교육을 받아야합니까 ~ 95 %라고 말하고 싶습니까? 그렇지 않다면 데이터 세트를 "정상화"하는 다른 옵션은 무엇입니까?정서 분석 교육 데이터를 고르게 분배해야합니까?
0
A
답변
0
당신은 어떤 유형의 분류자를 가지고 있는지 말하지 않지만 일반적으로 훈련 세트의 분포를 정규화 할 필요는 없습니다. 그러나 대개 데이터가 많을수록 과도한 피팅을 방지하기 위해 블라인드 테스트를 수행해야합니다.
귀하의 경우 부정적인 의견에 대해 강력한 분류자를 갖게되며 매우 큰 표본 크기가 아니라면 더 약한 긍정적 분류자를 갖게됩니다. 샘플 크기가 충분히 크다면 어쨌든 네거티브 데이터를 너무 많이 맞추기 시작할 수도 있기 때문에 큰 문제는 아닙니다.
간단히 말해서 실제 알고리즘과 데이터 세트의 크기 및 데이터 세트의 다양성을 모른 채 말할 수는 없습니다.
가장 좋은 방법은 훈련 데이터의 10 % (무작위로)와 같은 것을 뜯어 내고 90 % 하위 집합에서 훈련을받은 후 분류자가 어떻게 수행하는지 확인하는 것입니다.
관련 문제
- 1. 자바로 간단한 정서 분석
- 2. 트위터 정서 분석 기술
- 3. 아랍어 언어에 대한 정서 분석
- 4. Aspect 기반 정서 분석 라이브러리
- 5. 트윗에 대한 R 정서 분석 점수
- 6. 다른 수의 문서로 된 정서 분석
- 7. KNN 분류기 정서 분석 대 카테고리 분석 정밀도
- 8. CvSVM이 교육 데이터를 확장합니까?
- 9. 실시간 정서 데이터를 저장하는 가장 효율적인 방법
- 10. Stanford NLP 정서 훈련 세트
- 11. 텍스트 분류를위한 교육 데이터를 찾으십시오.
- 12. Apache Stanbol 정서 분석 및 문장 검색이 작동하지 않습니다.
- 13. Aspect 기반 정서 분석 깊이 학습 모델 구현시 오류
- 14. 아파치 스파크의 Naive Bayes를 사용한 트위터 정서 분석
- 15. 직원 교육 분석 쿼리 조건부 쿼리
- 16. 트위터 정서 분석에 위치 추가하기
- 17. 트위터 정서 분석을 어떻게 해결할 수 있습니까?
- 18. 두 데이터 세트의 확률 분포 엔트로피 계산 - C#에서 텍스트 분석 및 정서
- 19. 교육 안드로이드에 대한 Tesseract 데이터를 얻기가 어렵습니까?
- 20. nltk 교육 데이터를 Python으로 수동으로 설치하십시오.
- 21. SpaCy 모델의 교육 데이터를 작성하는 방법은 무엇입니까?
- 22. Tensorflow 교육 데이터를 일괄 처리로 분할
- 23. libsvm의 교육 데이터를 읽은 후 충돌이 발생했습니다
- 24. SOM에서 교육/테스트로 데이터를 분할하는 이유는 무엇입니까?
- 25. 왜 sortBy()가 Spark에서 데이터를 고르게 정렬 할 수 없습니까?
- 26. 아파치 돼지 출력 파일에 데이터를 고르게 분산시키는 방법은 무엇입니까?
- 27. 정서 분석을위한 세분화 패턴은 무엇입니까
- 28. 분류 된 정서 데이터의 출처?
- 29. 정서 분석을 시작하는 방법은 무엇입니까?
- 30. 감정 분석 대 감정 분석
핵심 질문은 정말로 "어떤 분류 알고리즘이 95 %/5 % 범위의 강력하게 조정 된 데이터에 적합합니까?"입니다. 답을 통해이 부분을 제기 할 수 있습니까? 최소한 nltk (Naive Bayes, 최대 엔트로피, 퍼셉트론 등)에 의해 제공되는 알고리즘 중에서, – alexis