2011-01-26 5 views
1

정보 검색 시스템을 만들기 위해 LETOR를 사용하고 있습니다. 그들은 TF와 IDF를 사용합니다. TF는 쿼리에 종속적입니다. 그러나 IDF는 다음과 같아야합니다. 그러나IDF는 여러 문서에서 어떻게 다릅니 까?

"IDF는 문서 독립적이므로 쿼리의 모든 문서에는 동일한 IDF 값이 있습니다."

그러나 IDF는 기능 목록의 일부이므로 이해가되지 않습니다. 각 문서의 IDF는 어떻게 계산됩니까?

답변

4

IDF는 용어마다 다릅니다. 주어진 용어의 IDF는 문서에 독립적이지만 TF는 문서마다 다릅니다.

다르게 말하십시오. 3 개의 문서가 있다고 가정 해 보겠습니다.

문서 ID를 1 "빠른 갈색 여우가 게으른 개 점프"

문서 ID를 2

문서 ID를 3 "에 위치한"아나 폴리스는 교회 원에있는 교활한 여우 펍 " 역사 지구의 심장부에있는 교회 서클 "

IDF가 (문서 수)/(용어 t가 포함 된 문서 수) 이면 여우 용어에 대한 IDF는 검색과 관계없이 3/2입니다. 또는 문서가 무엇인지. 그래서 IDF는 t의 함수입니다. 한편, TF는 t 및 d에 대한 함수이다.

IDF 지정된 코퍼스에서 당신이 검색하는 방법을 일반적인 특정 단어 나 g의 측정 : 그래서의 TF '는'문서 ID를 1 2

3

무엇 jshen 상기 추가하는 것입니다 . 그 단어가 얼마나 희귀한지, 따라서 그 중요성이 얼마나 큰지에 대한 추정치입니다. 따라서 검색어에 흔치 않은 단어가 포함되어있는 경우 희귀 한 단어가 포함 된 문서가 더 중요하다고 판단해야합니다.

관련 문제