3
나는 apache mahout을 통해 순진한 bayes 분류 자 알고리즘을 실행하고 있습니다. 알고리즘의 인스턴스를 트레이닝하고 실행하는 동안 그램 크기를 설정하는 옵션이 있습니다.nahrams in apache mahout
내 n-Gram 크기를 1에서 2로 변경하면 결과 분류가 크게 바뀝니다. 왜 이런 일이 생길까요? n-Grams 크기는 어떻게 결과에 큰 변화를 가져 옵니까?
ngram은 정확도에 정비례하고 확장성에 반비례한다는 것을 의미합니까? – Greenhorn
아니, 그처럼 간단하지는 않습니다. 정확성은 당신의 코퍼스에 달려 있습니다. 예를 들어, bigram은 법률 문건과 같이 중요한 문구 나 고유 명사가 많은 문서의 분류에 더 유용하다고 생각합니다. 확장 성은 별도의 질문입니다. 얼마나 많은 n-gram을 신경 써야 할지를 결정할 수 있습니다. –
알기. 감사합니다 숀! – Greenhorn