2011-07-07 4 views
2

저는 간단한 (어리석은 질문 일 수 있습니다) 질문이 있습니다. 두 문서에서 Kullback-Leibler 분기를 계산하려고합니다. 각 문서의 확률 분포가 필요합니다.확률 분포를 계산합니다.

각 문서의 확률을 계산하는 방법을 모르겠습니다. layman 예제를 사용한 간단한 대답은 많은 도움이 될 것입니다.

1 - cross validated answers are good 
2 - simply validated answers are nice 

우리는이 문서에 대한 확률을 계산하려면 어떻게

(문서의 표현 당신에게 예를 그냥 어쩌구 저쩌구입니다) :

는 두 개의 문서를 따라의 우리가 있다고 가정 해 봅시다?

의 우리는 또 하나의 문서에 추가한다고 가정 해 봅시다 : 우리가 다른 문서를 추가 할 경우 어떻게 것이 영향 확률 분포 다음

3 - simply cross is not good answer 

를?

감사

+0

숙제입니까? – emaillenin

+0

아닙니다. 또한 소스 코드를 묻지 않았습니다.). 나는 간단한 평신도 예를 물었다. 숙제라면 내 교수님.lol – user751637

+1

Kullback-Leibler 발산은 대칭 적이 지 않습니다. KL (D1, D2)! = KL (D2, D1) 일 가능성이 있습니다. 또한 문서 중 하나에 다른 단어가없는 단어가 포함되어 있으면 무한 발산 값을 얻을 수 있습니다 (KL 발산을 측정하는 방향에 따라 다름). 정보 이론에 기반한 측정으로 두 문서의 유사성 유사도를 계산하려는 경우 Jennsen-Shannon divergence (http://en.wikipedia.org/wiki/Jensen-Shannon_divergence)를 제안합니다. KL 발산, 대칭 및 유한 기준. –

답변

1

해당 문서가 새로 추가 수용 할 수 있도록 바꿀 것입니다 문서 수집, 배포에 단어 나 용어의 분포와 완전히 동일하지 않는 한, 문서의 컬렉션에 문서를 추가하는 경우 말. 문제는 "실제로 세 번째 문서로하고 싶은 것입니까?"

Kullback-Leibler divergence은 두 분포에 대한 분산의 척도입니다. 두 배포본은 무엇입니까?

분포가 문서에서 특정 단어가 임의로 선택 될 확률이면 확률 값이있는 공간은 문서를 구성하는 단어 모음입니다. 처음 두 개의 문서 (전체 모음집이라고 가정 함)의 경우 7 단어의 단어 공간을 만들 수 있습니다.

  doc 1  doc 2   doc 3 (lem) 
answers  0.2  0.2    0.0  0.2 
are   0.2  0.2    0.0  0.2 
cross  0.2  0.0    .33  0.2 
good   0.2  0.0    .33  0.2 
nice   0.0  0.2    0.0  0.0 
simply  0.0  0.2    .33  0.2 
validated 0.2  0.2    0.0  0.0 

[이 문서 길이로 나눈 기간 주파수로 계산된다 : 즉 가방이 같은 단어에 대한 가능성이 문서에서 랜덤하게 선택된다. 새 문서에는 워드 1과 2의 단어와 다른 단어 형식이 있습니다. (lem) 열은 동일한 용어를 쌍 (존재 /있는)으로 줄이거 나 축약 한 경우 확률이됩니다. (대답/해답)]

세 번째 문서를 시나리오에 소개 할 때 Kullback-Liebler Divergence로 수행하려는 일반적인 활동은 새 문서 또는 문서 모음을 이미 알려진 문서 또는 문서 모음과 비교합니다 .

Kullback-Liebler divergence를 계산하면 대체 분포를 사용하여 실제 분포 P이 얼마나 잘 포착되었는지 나타내는 값을 생성합니다. 따라서 Q1은 문서 1의 단어 배포 일 수 있으며 Q2은 문서 2의 단어 배포 일 수 있습니다. P으로 새 문서 (doc 3)의 단어 분포 인 KL 분기를 계산하면 새로운 문서는 문서 1과 다르며 문서 2와 얼마나 다른지 알 수 있습니다.이 정보를 사용하여 새 문서가 문서/모음을 아는 것과 얼마나 유사한 지 말할 수 있습니다.

+0

세부 사항/명확한 답변을 위해 Atreys에 감사드립니다. 여기에 질문이 있습니다 : TF와 확률의 차이점은 무엇입니까? 그것은 항상 나를 혼란스럽게합니다. 간단한 TF를 사용하여 문서의 확률 분포를 계산할 수 있습니까? 확률 분포를 위해 문서를 정규화하는 몇 가지 방법이 있다고 들었는데, 그것이 무엇인지 (정규화) 알고 있습니까? – user751637

+0

용어 빈도는 문서의 용어 빈도입니다. "개"라는 용어가 문서에 세 번 나타나면 빈도라는 용어는 3입니다. 문서의 용어가 8000 개이면 문서에서 무작위로 선택 될 확률은 3/8000입니다. IR의 경우,보다 유용한 계산은 문서 주파수에 대한 용어 - 주파수 인 TF-IDF입니다. "개"라는 말이 귀하의 코퍼스에만 8 번 나타나면 TF-IDF는 3/8이 될 것입니다 - 백 가지 정도의 문서가 있다면 잠재적으로 매우 중요합니다. 내가 보여준 확률 분포는 ... – Atreys

+0

... 문서에서 무작위로 색인 된 단어로 이동하여보고 단어를 선택하는 경우 용어가 문서에서 선택되었습니다. TF를 문서 길이로 나누는 것은 내가 한 일입니다. 이것이 확률 벡터에서 사용되는 정규화입니다 : 벡터를 구성 요소의 합으로 나눕니다. 모든 정보가 1이됩니다. 정보 검색에 대한 책이 없다면 [정보 검색 소개] (http : // nlp .stanford.edu/IR-book/information-retrieval-book.html)은 현장에 소개하기 쉽도록 매우 접근하기 쉽습니다. – Atreys