2011-12-20 4 views
3

나는 apache mahout을 통해 순진한 bayes 분류 자 ​​알고리즘을 실행하고 있습니다. 알고리즘의 인스턴스를 트레이닝하고 실행하는 동안 그램 크기를 설정하는 옵션이 있습니다.nahrams in apache mahout

내 n-Gram 크기를 1에서 2로 변경하면 결과 분류가 크게 바뀝니다. 왜 이런 일이 생길까요? n-Grams 크기는 어떻게 결과에 큰 변화를 가져 옵니까?

답변

6

1 그램은 단어입니다. 2-gram (또는 bigram)은 단어의 쌍입니다. 이는 "United"및 "States"또는 "United States"의 존재 여부에 따라 문서를 분류하는 것과 같습니다. 바이 그램을 사용하면 약간의 공간과 성능에 영향을 줄 수 있지만 아마도 1 그램보다 나은 결과를 얻을 수 있습니다.

+0

ngram은 정확도에 정비례하고 확장성에 반비례한다는 것을 의미합니까? – Greenhorn

+0

아니, 그처럼 간단하지는 않습니다. 정확성은 당신의 코퍼스에 달려 있습니다. 예를 들어, bigram은 법률 문건과 같이 중요한 문구 나 고유 명사가 많은 문서의 분류에 더 유용하다고 생각합니다. 확장 성은 별도의 질문입니다. 얼마나 많은 n-gram을 신경 써야 할지를 결정할 수 있습니다. –

+0

알기. 감사합니다 숀! – Greenhorn