2012-01-04 8 views
-2

두 개의 문서를 비교하고 유사성을 찾아야합니다.유사도

내가해야 할 일은 두 개의 문서를 비교하고 그 결과로 숫자를주는 것입니다. 숫자는 유사도를 묘사해야합니다 (유사한 문서는 더 큰 숫자를 갖습니다)

이 프로세스를 수행하는 효과적인 방법이 필요합니다. (유사성은 비슷한 단어의 기본 측정되지 않지만, 상황도 고려되어야합니다.)

사람이이 과정

+0

(이 서명 생성 알고리즘에 대한 매개 변수입니다) 4 또는 5의 싱글 길이를 사용합니다. 검색해보십시오 ... –

+0

나는 pairwise 유사성에 대한 논문을 읽었습니다. 하지만 효과적인 구현 방법을 모색하고 있습니다. u 하나 제안 할 수 있습니다. Please – siddharth

+0

왜이 질문에 3 개의 부정 투표가 있었습니까? – bikashg

답변

0

체크 아웃 LSA (잠재 Sematic 분석을위한 효율적인 알고리즘을 제안 할 수). 이 알고리즘은 두 문서의 유사성을 검사합니다. 문서 클러스터링 기술을 구현하려면 다음

, 당신은 SVD (단수 값 Decompostion)라고 기술

에 대해 배울 수있다, 당신은 matlab에를 사용하여 시도하고 matlab에-TMG 도구를 설치할 수 있습니다.

0

빠르고 수학적이지 않은 설명과 구현 (Java의 경우)을 원하는 경우 여기 n-gram based solution에 대한 링크가 있습니다.

힌트 : 무료 텍스트, 많은 자원이 주제에있다

관련 문제