Naive Bayes Classifier를 사용하고 있습니다. 다음은 tutorial입니다. 훈련 된 데이터에 대해 저는 308 개의 질문을 사용하고 수동으로 태그가 지정된 26 개의 카테고리로 카테고리를 분류하고 있습니다. 데이터를 보내기 전에 NLP를 수행 중입니다. NLP에서 수행 중 (문장 부호 제거, 토큰 화, 정지 단어 제거 및 형태소 분석) 이 필터링 된 데이터가 mahout의 입력으로 사용됩니다. mahout을 사용하여 NBC에서이 데이터를 학습하고 모델 파일을 가져옵니다. 지금 내가 달릴 때Naive Bayes Classifier의 정확도를 향상시키는 방법은 무엇입니까?
mahout testnb
나는 정확한 인스턴스를 96 %로 얻는다.
내 테스트 데이터의 경우 수동으로 태그를 추가 한 100 개의 질문을 사용하고 있습니다. 그리고 훈련 된 모델을 테스트 데이터와 함께 사용할 때, 올바르게 분류 된 인스턴스를 1 %로 얻습니다. 이것은 나를 화나게하고있다.
누구나 내가 뭘 잘못했는지 나에게 제안하거나 NBC의 성능을 향상시키는 몇 가지 방법을 제안 할 수 있습니까?
이상적으로 트레이닝과 테스트에 필요한 질문 데이터의 양은 어느 정도입니까?
교육용으로 300 개의 입력 된 "벡터"가 있습니까? 진심이야? –
@ThomasJungblut이 300보다 적습니까? 각 학급/카테고리별로 얼마나 많은 질문을해야합니까? – SLearner