2012-10-22 4 views
8

프로젝트의 관점에서 필자는 Python NLTK 및 문서 분류 및 Naive Bayes 분류자를 가지고 놀았습니다. 이 문서에서 알 수 있듯이, 다른 문서에 레이블 (또는 두 개 이상의 레이블)로 pos 또는 neg 태그가있는 경우이 작업이 매우 잘 수행됩니다.NLTK : 레이블 대신 숫자 점수로 문서 분류

내가 작업하고있는 문서는 이미 분류되어 있습니다. 레이블을 가지고 있지만 점수가 0에서 5 사이의 부동 소수점을가집니다.

설명서에있는 영화 예제와 같은 분류자를 작성하는 것이 좋지만 조각의 점수를 예측할 수 있습니다. 텍스트가 아닌 나는 이것이 문서에서 언급되었지만 더 이상 "수치 특징의 확률"로 생각하지 않는다.

나는 언어 전문가도 아니고 통계 학자도 아니기 때문에 만약 누군가가이 거짓말의 예를 가지고 있다면 나는 당신이 원한다면 가장 감사 할 것이다. 이것을 나와 공유하십시오. 감사! 당신이 찾고있는 무엇

+0

NLTK에 익숙하지 않지만 순진 베이 분류의 레이블은 확률과 직접 관련이 있습니다. 따라서 NLTK 코드의 어딘가에서 확률이 계산되고 그 확률이 ​​임계 값보다 높거나 낮은 지 여부에 따라 레이블이 적용됩니다. –

답변

0

보고, 이에 대한 NLTK보다 훨씬 더하지만, 아마도 그것은 사람을 도움이 될 것입니다.

당신이 물어 보는 것은 회귀입니다. Jacob의 대답에 관해서, 선형 회귀는 그것을 수행하는 한 가지 방법 일뿐입니다. 그러나, 나는 scikit-learn에 대한 그의 추천에 동의한다.

관련 문제