2011-11-30 3 views
3

Naive Bayes를 사용하여 텍스트 분류 기계 학습 문제를 수행하고 있습니다. 나는 각 단어를 하나의 특징으로 가지고있다. 나는 그것을 구현할 수 있었고 나는 좋은 정확성을 얻고있다.Naive Bayes를 사용한 텍스트 분류

단어 튜플을 기능으로 사용할 수 있습니까?

예를 들어 정치 및 스포츠라는 두 가지 수업이있는 경우. 정부라는 단어가 양쪽에 나타날 수 있습니다. 그러나 정치에서는 튜플 (정부, 민주주의)을 가질 수 있지만 반 스포츠에서는 튜플 (정부, 스포츠맨)을 가질 수 있습니다. 따라서 새로운 텍스트 기사가 정치적으로 등장한다면, 튜플 (정부, 민주주의)의 확률은 튜플 (정부, 운동가)보다 확률이 높습니다.

나는 이것을 수행함으로써 Naive Bayes 문제의 독립 가정을 침해한다는 것을 묻고 있습니다. 하나의 단어도 기능으로 고려하고 있기 때문입니다.

또한 기능에 가중치를 추가 할 생각입니다. 예를 들어 3 튜플 피쳐는 4 튜플 피쳐보다 가중치가 적습니다.

이론적으로 Naive Bayes 분류기의 독립 가정을 변경하지 않는이 두 가지 방법이 있습니까? 또한, 내가 언급 한 접근 방식으로 시작하지는 않았지만 이것은 정확성을 향상시킬 것인가? 정확도는 향상되지 않지만 동일한 정확도를 얻는 데 필요한 교육 데이터의 양은 줄어들지 않을 것이라고 생각합니다.

답변

5

bigrams를 추가하지 않아도 실제 문서는 이미 독립 가정을 위반합니다. 문서에 오바마 대통령이 있음을 조건으로, 대통령은 출두 가능성이 훨씬 높습니다. 그럼에도 불구하고 순진한 베이 즈 (Bayes)는 비록 그것이 제공하는 확률 추정치가 절망적 일지라도, 분류에서 괜찮은 일을합니다. 따라서 계속해서 더 복잡한 기능을 분류 자에 추가하고 정확도가 향상되는지 확인하는 것이 좋습니다.

적은 데이터로 동일한 정확도를 얻으면 기본적으로 동일한 양의 데이터로 더 나은 정확도를 얻는 것과 같습니다.

반면에 더 간단하고 일반적인 기능은 데이터 양을 줄이면 더 잘 작동합니다. 너무 적은 데이터에 너무 많은 매개 변수를 넣으려고하면 심하게 overfit하는 경향이 있습니다.

하지만 결론은 시도해보십시오.

2

아니요, 이론적 인 관점에서 볼 때, 당신은 독립 가정을 변경하지 않고 있습니다. 수정 된 (또는 새로운) 샘플 공간을 작성하는 것입니다. 일반적으로 샘플 공간에서 더 높은 n-gram을 이벤트로 사용하기 시작하면 데이터 희소성이 문제가됩니다. 튜플을 사용하면 같은 문제가 발생할 것이라고 생각합니다. 적은 교육 자료가 아니라 더 많은 교육 자료가 필요할 것입니다. 당신은 아마 당신이 사용하는 매끄러운 유형에 대해 조금 더 생각해야 할 것입니다. 간단한 Laplace smoothing은 이상적이지 않을 수도 있습니다.

가장 중요한 점은 내가 생각하기에 이것은 어떤 분류자를 사용하든 그 기능은 도메인 (때로는 데이터 집합)에 크게 의존한다는 것입니다. 예를 들어 영화 리뷰를 기반으로 텍스트의 정서를 분류하는 경우 Unigram 만 사용하면 직관력이 떨어지는 것처럼 보일 수 있지만 형용사를 사용하는 것보다 효과적입니다. 반면 트위터 데이터 세트의 경우 unigram과 bigram의 조합은 좋았지 만 높은 n-gram은 유용하지 않았습니다. 그러한 보고서에 따르면 (Pang and Lee, 의견 채굴 및 감정 분석), 더 긴 튜플을 사용하면 비슷한 결과가 나타날 것입니다. 왜냐하면 결국 단어의 튜플은 고차원 공간의 점이기 때문입니다. 기본 알고리즘은 동일한 방식으로 작동합니다.

관련 문제