2011-11-25 4 views
3

Mahout 예제에 나와있는 큰 데이터 세트를 클러스터링하기 위해 제공된 here 클러스터링 기법을 사용하고 있습니다. 그러나 특정 클러스터링을 시각화하면 다음 그림과 같습니다.K Mahout을 사용한 클러스터링

Mahout k-means visualization.

난 정말이 실제로 의미 몇 가지 질문을 이해하기 위해 사투를 벌인거야.

  1. 모든 색칠 된 선은 무엇을 나타 냅니까?
  2. 이렇게 많은 클러스터가 의미하는 것은 무엇입니까?
  3. 왜 혼잡 한 지역이 적고 다른 지역이 혼잡하지 않은 이유는 무엇입니까?
  4. 왜 색상 선이 서로 겹치지 않습니까?

답변

3

k-means는 가장 진보 된 클러스터링 기술이 아닙니다. 시각화 기법의 서클은 오해의 소지가 있습니다. 실제로는 데이터 공간을 Voronoi 셀에 분할합니다 (Wikipedia에서 찾아보기). 또한 비슷한 크기의 클러스터를 선호합니다.

  1. 다른 색상은 k- 평균의 다른 반복을 나타내는 것으로 가정합니다. 결과를 최적화하기 위해서는 여러 번의 실행이 필요합니다 (일반적으로 로컬 최소값에만 도달하며 다른 실행은 결과가 다릅니다). 결과는 아직 안정적이지 않습니다. 그들은 천천히 이동하기 때문에 많은 부분이 중복되지 않습니다.

  2. 클러스터 수는 k-means의 매개 변수입니다. 일반적으로 k으로 표시됩니다. k-means는 클러스터 수를 결정할 수 없지만 여러 값의 k를 사용하여 실행하는 경우 데이터 세트에 가장 적합한 결과를 테스트 할 수 있습니다.

  3. k- 수단은 밀도를 보지 않습니다. 이를 위해 밀도 기반 클러스터링 알고리즘이 필요합니다. k-means는 비슷한 크기의 클러스터를 선호합니다. 귀하의 "k"가 아마도 너무 높습니다.

  4. 반복적으로 업데이트되므로 서로 다른 반복이 많이 중복되어서는 안됩니다.

관련 문제