문서의 Tf-idf 가중치를 찾은 다음 Naive
베이지안 분류자를 사용하여 텍스트를 분류하기 위해 scikit-learn을 사용하고 있습니다. 그러나 문서에서 모든 단어의 Tf-idf 가중치는 소수를 제외하고는 음수입니다. 그러나 내가 아는 한, 음의 값은 중요하지 않은 용어를 의미합니다. Bayesian 분류기에 전체 Tf-idf 값을 전달해야합니까? 우리가 그 중 일부만 전달할 필요가 있다면 어떻게 할 수 있습니까? 또한 linearSVC에 비해 Bayesian 분류기가 얼마나 좋거나 나쁘지는 요? Tf-idf를 사용하는 것보다 텍스트에서 태그를 찾는 더 좋은 방법이 있습니까?Python을 사용하는 Naive Bayes 분류 자
감사합니다.
먼저 빠른 응답을 보내 주셔서 감사합니다. 따라서 Tf-idf 값이 0보다 큰 단어를 태그로 사용할 수 있습니까? . – jvc
또한 Bayes 분류 자에 대한 교육에 대한 의견은 무엇입니까? 전체 문서 Tf-idf를 사용하여이를 수행 할 필요가 있는가, 아니면 더 높은 Tf-idf 값을 갖는 단어의 Tf-idf 값만을 사용하여 수행 할 수 있는가? – jvc
음, 문서의 대부분의 단어는 음수가 아니어야합니다. 당신의 코퍼스는 얼마나 큰가요? 분명히 실행하기 전에 "the", "an"등과 같은 stopwords를 제거하십시오. 태그로 무엇을 의미하는지 확신 할 수 없지만, 기능 또는 유사한 라벨을 의미하는 경우 좋은 접근이라고 생각합니다. – Chet