2011-03-12 3 views
1

TF-IDF (일반적인 단어를 제거하기 위해 일반 영어 코퍼스와 비교)를 수행하여 웹 페이지를 고유하게 식별하는 것을 목표로하는 소프트웨어를 개발 중입니다. 좋은 무료 자료 (http://www.wordfrequency.info/top5000.asp)를 찾으려면 시간이 걸렸지 만,이 자료는 빈도와 분산 만 제공합니다. 그것은 얼마나 많은 문서들이 코퍼스에 포함되었는지를 말하지 않기 때문에 IDF 테이블을 해결할 수는 없습니다. 분산 값은 0-1의 범위를 가지며 1은 모든 문서에 단어가 있음을 나타냅니다. 누구든지이 데이터를 사용하여 유사한 IDF 테이블을 달성하는 방법을 알고 있습니까? 또한 필요한 정보가 포함 된 무료 자료를 알고있는 사람이라면 평가할 수 있습니다. 감사TF-IDF 코퍼스 분산을 사용할 수 있습니까?

답변

4
IDF = log (Total Documents in Corpus/Total Documents containing the term) 

분산은 용어를 포함하는 문서의 일부분 인 경우 : log (1/dispersion)은 IDF

+1

당신은 내가 이것을 깨달았을 때 내가 쳐 얼굴을 얼마나 믿지 않을 것 일 것이다. 어쨌든 고마워. – nonamenonumber

관련 문제