2011-02-04 3 views

답변

5

확률이 인 의 로그입니다. 훈련 된 세트가 많으면 실제 확률은 매우 작기 때문에 로그를 비교하기가 더 쉽습니다. 이론적으로 점수는 무한히 가까운 0부터 음의 무한대까지 다양합니다. 10**score * 100.0 실제로 실제 최대 확률은 100입니다.

+1

+1'classifications' 메소드에 대해 [source] (http://classifier.rubyforge.org/classes/Classifier/Bayes.src/M000041.html)를 확인 했으므로 바로 확인할 수 있습니다. –

+0

이것은 의미가 있지만 실제 확률에 대한 공식으로 여전히 고심하고 있습니다. 내 세트의 일반적인 점수는 -8.84와 같습니다. 그래서 10 * (- 8.84) * 100 = 840입니다. 나는 여전히 뭔가를 놓치고 있습니다. –

+1

10에 -8.84를 곱한 것처럼 보입니다. 10을 "-8.84"의 힘으로 올려야합니다. –

4

실제로 b가 기본 인 일반 naive 베이 분류 자의 확률을 계산하면 b^score/(1 + b^score). 이것은 inverse logit (http://en.wikipedia.org/wiki/Logit)입니다. 그러나 NBC의 독립성 가정을 감안할 때이 점수는 너무 높거나 너무 낮게 경향이 있으며 이렇게 계산 된 확률은 경계에 누적됩니다 . 홀드 아웃 세트에서 점수를 계산하고 점수와 확률 사이의 관계에 대해 더 나은 느낌을 얻으려면 점수에 대한 정확한 (1 또는 0) 로지스틱 회귀를 수행하는 것이 좋습니다. 제이슨 레니 용지에서

: 2.7 나이브 베이 즈 출력은 Overcondent 텍스트 데이터베이스가 자주 10,000 100,000 별개의 어휘가 종종; 문서는 종종 100 개 이상의 용어를 포함합니다. 따라서 복제 할 수있는 좋은 기회가 있습니다. 얼마나 많은 중복이 있었는지 알기 위해 Naive Bayes 모델을 20 개의 Newsgroups 문서 중 80 %를 사용하여 교육했습니다. 우리는 데이터의 나머지 20 %에 대해 p (cjd; D) (후부) 값을 생성하고 표 2.3에 maxc p (cjd; D)에 대한 통계를 표시합니다. 값은 매우 과도합니다. 시험 문서의 60 %에는 십진수 9 자리로 반올림 한 경우 에 1의 사후가 할당됩니다. 로지스틱 회귀와 달리 Naive 베이 즈 (Bayes)는 적절한 확률 값을 산출하기 위해 최적화되지 않았습니다. 로지스틱 회귀 은 올바른 훈련 데이터로 적절한 확률 값으로 수렴하여 선형 코디네이트의 공동 최적화를 수행합니다. Naive Bayes는 을 하나씩 최적화합니다. 독립 가정이 인 경우에만 현실적인 결과물을 산출합니다. 피처에 중복 된 정보가 포함되어있는 경우 (보통 텍스트의 경우 ) Naive Bayes가 제공 한 사후 관리는 지나치게 과도합니다.

관련 문제