4

일부 문서 클러스터링에 관심이 있습니다. 지금 당장 TF-IDF를 사용하려고합니다.tf-idf : 맞습니까?

잘못 입력하지 않은 경우 TF-IDF는 특히 문서 과 관련하여의 관련성을 평가하는 데 사용됩니다. 특정 쿼리가 없으면 tf-idf를 클러스터링에 어떻게 적용 할 수 있습니까?

답변

4

실제 정확히 : tf-idf은 주어진 문서에있는 용어의 관련성을 으로 제공합니다.
그래서 당신은 완벽하게 문서의 i와 문서의 J 모두 각 용어 t에 뭔가 같은

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j)) 

될 것이라고 근접을 계산 하여 클러스터링을 위해 사용할 수 있습니다.

4

문서 클러스터링의 경우. 가장 좋은 방법은 k-means 알고리즘을 사용하는 것입니다. 얼마나 많은 문서 유형을 알고 있다면 k가 무엇인지 알 수 있습니다.

는 문서 작업을 만들려면 :

a)는 임의의 초기 K 문서를 선택 말한다.

b) 클러스터와 문서의 최소 거리를 사용하여 각 문서를 클라이언트에 할당하십시오.

c) 문서가 클러스터에 할당 된 후 각 클러스터의 중심을 취하여 K 개의 새 문서를 클러스터로 만듭니다.

이제 질문은

A) 두 문서 사이의 거리를 계산하는 방법 : 초기 클러스터 문서의 용어의 코사인 유사하지만 그것의 아무것도. 여기에있는 용어는 TF-IDF입니다 (각 문서의 앞부분에서 계산 됨).

b) Centroid는 주어진 용어의 TF-IDF 합계가이어야합니다. 문서의 이것을 클러스터의 모든 가능한 용어에 대해 수행합니다. 이것은 당신에게 다른 차원의 문서를 줄 것입니다.

희망이 있습니다.

+0

http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf –

+0

에 대한 도움을받을 수 있으므로이 문서는 {1.1, 0, 3.3, 4} {0, 2, 0, 3} {1, 1, 1, 1}이고 그들의 중심은 {2.1/3, 3/3, 4.3/3, 8/3}입니까? – MonsterMMORPG

1

TF-IDF는 다른 용도로 사용됩니다. 바퀴를 재발 명하지 않으려면 Carrot과 같은 도구를 사용하는 것이 좋습니다. 문서 클러스터링을위한 인터넷 검색은 독자적으로 구현하려는 경우 많은 알고리즘을 제공 할 수 있습니다.

+0

TF-IDF는 클러스터링과 관련이 없습니다. 어떻게 텍스트 문서를 클러스터링 할 것인가? – MonsterMMORPG