Naive Bayes를 사용하여 텍스트 분류 기계 학습 문제를 수행하고 있습니다. 나는 각 단어를 하나의 특징으로 가지고있다. 나는 그것을 구현할 수 있었고 나는 좋은 정확성을 얻고있다.Naive Bayes를 사용한 텍스트 분류
단어 튜플을 기능으로 사용할 수 있습니까?
예를 들어 정치 및 스포츠라는 두 가지 수업이있는 경우. 정부라는 단어가 양쪽에 나타날 수 있습니다. 그러나 정치에서는 튜플 (정부, 민주주의)을 가질 수 있지만 반 스포츠에서는 튜플 (정부, 스포츠맨)을 가질 수 있습니다. 따라서 새로운 텍스트 기사가 정치적으로 등장한다면, 튜플 (정부, 민주주의)의 확률은 튜플 (정부, 운동가)보다 확률이 높습니다.
나는 이것을 수행함으로써 Naive Bayes 문제의 독립 가정을 침해한다는 것을 묻고 있습니다. 하나의 단어도 기능으로 고려하고 있기 때문입니다.
또한 기능에 가중치를 추가 할 생각입니다. 예를 들어 3 튜플 피쳐는 4 튜플 피쳐보다 가중치가 적습니다.
이론적으로 Naive Bayes 분류기의 독립 가정을 변경하지 않는이 두 가지 방법이 있습니까? 또한, 내가 언급 한 접근 방식으로 시작하지는 않았지만 이것은 정확성을 향상시킬 것인가? 정확도는 향상되지 않지만 동일한 정확도를 얻는 데 필요한 교육 데이터의 양은 줄어들지 않을 것이라고 생각합니다.