2010-03-29 2 views
1

텍스트 파일 세트가 있습니다. 다른 하위 집합에 대한 콘텐츠 고유성을 계산하고 싶습니다.C#의 콘텐트 고유성 계산 방법

예. 우리는 10 개의 문서 (A1 - A10)를 가지고 있으며 문서 A1과 A2의 하위 집합에 대한 고유성을 계산하려고합니다. 따라서 결과는 0에서 1 사이의 값이어야합니다 (1 - 절대적으로 고유 한 내용, 0 - 절대적으로 중복 된 내용).

콘텐츠 고유성 계산을위한 어떤 방법을 알고 있습니까? .NET 구현을 통해 이러한 방법을 제안하십시오.

감사합니다.

답변