2010-05-16 7 views
3

내 질문에 대해이 주제에 대해 조금 읽었습니다. 근본적으로 나의 이해는 더 높은 차원에서 모든 포인트는 서로 매우 가깝게 끝난다는 것이다.차원의 저주에 대해서

내가 의심 할 여지가있는 것은 거리를 평소와 같이 계산하는 것이 유효한지 여부입니다. 이것이 여전히 유효하다면 이것은 높은 차원의 벡터를 비교할 때 두 번째로 가장 유사한 것은 세 번째 것과 전혀 다른 것이 아니라는 것을 의미합니다.

이 정보가 맞습니까? 그러면이 경우 일치 여부를 어떻게 알 수 있습니까?

+0

몇 가지 참조를 인용 할 수 있습니까? –

+0

안녕하세요 Marcelo, 필자는 "Collective Intelligence 프로그래밍"과 일부 참고 문헌에서 클러스터링에 대해 조금 읽었습니다. 참고 나는이 소식통이 내 게시물에 쓴 내용을 말하지는 않습니다. 나는 단순히 기본적인 이해를 얻으려고 노력하고있다. – Dan

답변

2

기본적으로 거리 측정은 정확하지만 "실제"데이터가 시끄러운 경우 의미가 없습니다.

우리가 여기서 말하는 효과는 한 차원의 두 점 사이의 높은 거리가 다른 모든 차원에서 작은 거리에 의해 빠르게 가려지게된다는 것입니다. 이것이 결국 모든 점들이 어느 정도 동일한 거리로 끝나는 이유입니다. 다음에 대한 좋은 예가 있습니다.

각 차원의 값에 따라 데이터를 분류한다고 가정 해 보겠습니다. 우리는 단지 각 차원을 한 번 분할한다고 말합니다 (범위는 0..1입니다). [0, 0.5]의 값은 양수이고 [0.5, 1]의 값은 음수입니다. 이 규칙에 따라 3 차원에서 공간의 12.5 %가 덮여 있습니다. 5 차원에서는 3.1 %에 불과합니다. 10 차원에서는 0.1 % 미만입니다.

각 차원에서 전체 값 범위의 절반을 허용합니다! 어느 정도입니다. 그러나 그것들 모두는 전체 공간의 0.1 %에서 끝납니다.이 데이터 점들 사이의 차이점은 각 차원에서 큽니다 만 전체 공간에서는 무시할 수 있습니다.

각 차원에서 범위의 10 % 만 줄일 수 있습니다. 따라서 값은 [0, 0.9]로 허용됩니다. 당신은 여전히 ​​10 차원으로 덮인 전체 공간의 35 % 미만으로 끝납니다. 50 차원에서 0.5 %입니다. 따라서 각 차원의 광범위한 데이터가 검색 공간의 아주 작은 부분에 밀어 넣어집니다.

그래서 정보가 부족한 축에 대한 차이점을 무시한 차원 축소가 필요한 이유입니다.

+0

dimensiontiy 감소는 고차원 공간에서 (예 : 멀티미디어 검색에서 가장 가까운 이웃 검색을위한 1000 차원 특징 벡터를 처리 할 때) 크기를 제공하지 않습니다. – mbx