저는 간단한 (어리석은 질문 일 수 있습니다) 질문이 있습니다. 두 문서에서 Kullback-Leibler 분기를 계산하려고합니다. 각 문서의 확률 분포가 필요합니다.확률 분포를 계산합니다.
각 문서의 확률을 계산하는 방법을 모르겠습니다. layman 예제를 사용한 간단한 대답은 많은 도움이 될 것입니다.
1 - cross validated answers are good
2 - simply validated answers are nice
우리는이 문서에 대한 확률을 계산하려면 어떻게
(문서의 표현 당신에게 예를 그냥 어쩌구 저쩌구입니다) :
는 두 개의 문서를 따라의 우리가 있다고 가정 해 봅시다?
의 우리는 또 하나의 문서에 추가한다고 가정 해 봅시다 : 우리가 다른 문서를 추가 할 경우 어떻게 것이 영향 확률 분포 다음
3 - simply cross is not good answer
를?
감사
숙제입니까? – emaillenin
아닙니다. 또한 소스 코드를 묻지 않았습니다.). 나는 간단한 평신도 예를 물었다. 숙제라면 내 교수님.lol – user751637
Kullback-Leibler 발산은 대칭 적이 지 않습니다. KL (D1, D2)! = KL (D2, D1) 일 가능성이 있습니다. 또한 문서 중 하나에 다른 단어가없는 단어가 포함되어 있으면 무한 발산 값을 얻을 수 있습니다 (KL 발산을 측정하는 방향에 따라 다름). 정보 이론에 기반한 측정으로 두 문서의 유사성 유사도를 계산하려는 경우 Jennsen-Shannon divergence (http://en.wikipedia.org/wiki/Jensen-Shannon_divergence)를 제안합니다. KL 발산, 대칭 및 유한 기준. –