2012-07-16 3 views
0

Naive Bayes Classifier에 대한 이론적 인 질문이 있습니다. 나는 다음과 같은 훈련 데이터 분류를 훈련 한 가정 : Bayes 분류 자 ​​구현 (PHP)

class word count 
----------------- 
pos good 1 
     sun 1 
neu tree 1 
neg bad 1 
     sad 1 

내가 지금 "좋은 일이 좋은"분류 가정합니다. 이제 두 가지 옵션이 있습니다.

1) 정적 인 학습 데이터에 대해 분류합니다. 의미 "좋은"과 "태양"긍정적 인 범주에서,이 문자열을 긍정적으로 분류. 분류 후에는 교육 테이블이 변경되지 않습니다. 따라서 모든 문자열은 정적 데이터 집합에 대해 분류됩니다.

2) 문자열을 분류하지만 그 아래의 표와 같이 학습 데이터를 업데이트합니다. 따라서 다음 문자열은 이보다 더 "고급"훈련 데이터 세트와 분류됩니다. (자동) 분류의 말, 간단한 훈련 집합으로 시작 테이블은, NMB의 내 구현에 많은 단어 (업데이트 된 워드 카운트)

class word count 
----------------- 
pos good 2 
     sun 2 
     great 1 
neu tree 1 
neg bad 1 
     sad 1 

로 확장 된 크기가 성장한다 나는 첫 번째 방법을 사용했지만, 이제는 두 번째 추측을해야만한다. 깨달으십시오 :-)

+0

http://www.ibm.com/developerworks/library/wa-bayes1/ –

답변

1

구현 한 방법은 실제로 베이지안 (베이지안뿐만 아니라) 분류자를 만드는 대중적이고 받아 들여진 방법입니다.

"분류되지 않은"데이터, 즉 분류 기준을 업데이트하기위한 근거가없는 데이터를 사용하는 것은 고급 기술로서 때로는 "반 감독 학습"이라고도합니다. 이 알고리즘 클래스를 사용하면 특정 작업에 적합 할 수도 있고 그렇지 않을 수도 있습니다. 일반적으로 시행 착오입니다.

라벨이 지정되지 않은 데이터를 모델에 포함하기로 결정했다면 모델을 만드는 데 사용되는 인기있는 알고리즘 중 하나를 사용해보아야합니다. EM.

관련 문제