2017-04-07 1 views
0

두 개의 문서 벡터 X1과 X2가 있다고 가정 해 봅시다. 이제는 최대 문서 길이 제한을 갖기 위해 이들을 0 벡터로 채 웁니다. 그것은 두 벡터 사이의 유사성에 영향을 미칠 것입니까? 또는 일반적으로 어떻게 도움이됩니까?두 벡터의 유사도에 대한 패딩의 영향

답변

1

첫 번째 부분에 대답 할 수 있습니다. 벡터 간의 유사성에는 영향을 미치지 않습니다. 일반적으로 문서 처리에서 벡터 사이의 코사인 거리를 사용합니다. 0을 추가하면 코사인 거리가 변경되지 않습니다. 0을 추가하여 차원을 증가시키고 있습니다. 예를 들어, 2 차원 공간에서 [1, 2]와 [3, 4]는 두 점입니다. 3 차원에서 동일한 점은 [1, 2, 0] 및 [3, 4, 0]으로 표시됩니다. 차원이 증가하더라도 점수는 동일하게 유지됩니다.