2013-12-16 2 views
0

나는 정보 검색에 할당 있고 난 그 부분 사양을 생성, 내가 여기에 같은 단어의 값을 의미하는 방법을 깨달을 수 없었다 안녕하세요 : http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.htmlParticial 사양

= 0.2

을 a = 0.1

개구리 = 0.01 ... 등등. 누군가가이 값을 계산하는 방법을 설명하면 감사 할 것입니다.

언어 모델에 대해 자세히 알아보십시오!

a) 아이디어를 설명하십시오!

b) 다음 문서 콜렉션을 고려하십시오.

D1 : 오늘 맑음. 맑은 베를린! 있어야하거나 될 수 없습니다.

D2 : 그녀는 오늘 베를린에 있습니다. 그녀는 화창한 소녀입니다. 베를린은 항상 흥미 진진합니다!

각 문서에 해당하는 Unigram Language Model을 계산하십시오! 정지 확률을 모델에 xed (0 : 2와 같음)라고 가정합니다. ! 쿼리 \ 맑은 베를린 "주어진 문서를 평가하기 위하여 이러한 모델에게 그 단어의 값은 페이지가 계산되지 않습니다

답변

0

를 를 사용합니다. (가) 모델의 정의에서의 통계를 얻을 수있다.

예를 들어, 당신은 각 단어에 대해 서로 다른 확률 두 가지 모델이 있으며, 아래의 그림을 보면. 모델의 디자이너로서 당신은 자신에 의해 확률을 정의해야합니다.

enter image description here

이 나오지 않았어 경우 언어가 무엇인지 이해하지 못한다. 이 모델은 간단한 예입니다.

런던에 거주하는 사람들은 하나의 언어 모델 M1을 갖고 있고 NY에 거주하는 사람들은 다른 언어 모델 M2를 가지고 있다고 상상해보십시오.

일부 통계에 따르면 우리는 뉴욕의 사람들보다 "햇볕이 잘 드는"단어를 두 번 이상 (어떤 이유로 든) 사용한다는 것을 알고 있습니다. 따라서 "맑음"을 사용하는 M1 확률은 0.04이고 M2는 "맑음 "= 0.02. 다른 텍스트를 심판하기 TV, Magazine 등 우리는 런던 (M1)과 NY (M2)의 사람들이 다른 단어를 사용하는 "어떤 가능성이 있는지"를 정의 할 수 있으며 위에 표시된 것과 같은 테이블을 생성 할 수 있습니다.

이제 우리는 런던에있는 사람이나 NY에서 모르는 "그녀는 햇살 가득한 소녀"라는 문장을 갖게되었습니다.

우리가 추측 할 수있는 표를 참조하면 더 많은 것을이 단어를 사용하기 때문에 Londoner (M1)의 것일 수 있습니다!