2

내가 읽고 있었다. Similarity Measure 갑자기 내 온 세상이 무너지고 있었다. 클러스터링 기술을 사용하여 검색 엔진을 구현했습니다. 클러스터링의 경우 유클리드 거리로 거리 측정 값을 갖는 K 평균을 사용했습니다. 결과를 표시하기 위해 코사인 유사도를 사용했습니다. 놀랍도록 정확한 결과를 얻고있었습니다.하지만 지금 내가 읽은 것은, 내가 한 것은 문서 벡터를 정규화하고 두 벡터 사이의 유클리드 거리를 계산 한 것이므로 어디에도 크기를 고려하지 않았습니다.유클리드 거리 또는 코사인 유사도?

내가 잘못 했나요?

더 높은 용어 빈도가 높은 tf-idf 값과 더 높은 정규화 tf-idf 값을 구성 할 것이므로 적절하게 높은 순위가 매겨 질 것이라고 생각합니다. 감사

결과

61.79689257425985 222Proposed Research Details.doc 
144.15451315901478 and_Integrated_Assessment_of__Natural_resources_and_evolution_of_alternate_sustainable_land_management_options_for_tribal_dominated_watersheds_RRPS_24.doc 
72.61392308146608 done_Developing live fencing systems for soil & water conservation_NATIP-RNPS-3 SKN Math).doc 
72.96125277156261 done_Management strategies for impriing rabi (SKN Math).doc 
65.51734241367222 done_RPFIII_dr.dogra.doc 
66.72042766100921 Evaluation of crops and their varieties (SKN Math).doc 
418.8868087170988 P. VIJAYA KUMAR (DSS).doc 
140.3914521621597 RPF - I PIMS-ICAR project proposal for IASRI.doc 
72.95414421468679 RPF-III__Indo-US_project.doc 
82.25126123574397 220Introduction and objectives.doc 

결과 (정규화 벡터를, 도면 유클리드 거리이다)

1.3435369899385359 222Proposed Research Details.doc 
1.1277471087250086 and_Integrated_Assessment_of__Natural_resources_and_evolution_of_alternate_sustainable_land_management_options_for_tribal_dominated_watersheds_RRPS_24.doc 
1.2741267093494966 done_Developing live fencing systems for soil & water conservation_NATIP-RNPS-3 SKN Math).doc 
1.264154265747389 done_Management strategies for impriing rabi (SKN Math).doc 
1.2902191708899362 done_RPFIII_dr.dogra.doc 
1.3128744973475515 Evaluation of crops and their varieties (SKN Math).doc 
0.4924243033927417 P. VIJAYA KUMAR (DSS).doc 
1.1747048933792805 RPF - I PIMS-ICAR project proposal for IASRI.doc 
1.29150899172647 RPF-III__Indo-US_project.doc 
1.318016051789028 220Introduction and objectives.doc 

결과 (도 코사인이다 (정규화되지 벡터를 이용하여이 수치는 유클리드 거리이다) 유사성)

0.09745417833344654 222Proposed Research Details.doc 
0.36409322938119104 and_Integrated_Assessment_of__Natural_resources_and_evolution_of_alternate_sustainable_land_management_options_for_tribal_dominated_watersheds_RRPS_24.doc 
0.1883005642611103 done_Developing live fencing systems for soil & water conservation_NATIP-RNPS-3 SKN Math).doc 
0.2009569961963377 done_Management strategies for impriing rabi (SKN Math).doc 
0.16766724553404047 done_RPFIII_dr.dogra.doc 
0.13818027710720598 Evaluation of crops and their varieties (SKN Math).doc 
0.8787591527140649 P. VIJAYA KUMAR (DSS).doc 
0.3100342067353838 RPF - I PIMS-ICAR project proposal for IASRI.doc 
0.16600226214483405 RPF-III__Indo-US_project.doc 
0.13141684361322944 220Introduction and objectives.doc 

레스 lts 1과 2는 서로 동의하지 않지만 2와 3은 강하게 동의합니다. 더 유사성, 덜 거리. 거리는 클러스터 중 심 벡터와 각 문서의 문서 벡터 사이에서 취합니다.

사실 가장 이상한 결과는 유클리드 거리가 418이고 가장 유사한 0.87 인 문서입니다. 정규화 된 거리는 0.49가되어 유사성과 일치합니다.

+0

통계 : http://stats.stackexchange.com/questions/35076/euclidean-distance-euclidean-distance-between-unit-vectors-or-cosine-similarity –

+0

이 질문은 [Cross 확인] (http://stats.stackexchange.com/questions/35076/euclidean-distance-bt-unit-vectors-or-cosine-similarity-where-vectors-are-docum)을 참조하십시오. – BoltClock

답변

0

정보 검색 리허설에서 바로 기억할 때 두 벡터를 모두 정규화하면 유클리드 거리와 코사인 유사도가 역순으로 정렬됩니다.

관련 문제