2012-11-13 3 views
4

파이썬에서 텍스트 분류를 위해 Naive Bayes 분류기를 사용하고 있습니다. 파이썬 NLTK에서 보이지 않는 단어에 대한 확률을 피하기위한 스무딩 방법이 있습니까? 미리 감사드립니다!Python에서 스무딩 NLTK

답변

2

나는 모든 단어를 낮은 (특별히 1) 주파수로 바꾸어 <unseen>으로 바꾼 다음이 데이터에서 분류기를 훈련시키는 것이 좋습니다. 훈련 데이터에없는 단어의 경우 모델을 <unseen>에 쿼리해야합니다.