2013-01-18 2 views
2

최근 클러스터링 및 k- 평균 알고리즘에 대한 작업을 시작하여 좋은 사용 사례를 찾아 내 해결하려고했습니다.숫자가 아닌 차원의 클러스터링

다른 도시에서 판매 된 품목에 대한 다음 데이터가 있습니다.

항목 시티

항목 1 뉴욕
항목 2 샬럿
항목 1 샌프란시스코
...

나는 도시의 그룹을 찾기 위해 변수의 도시와 항목에 따라 데이터를 클러스터링 싶습니다 판매 된 품목에 대해 비슷한 패턴을 가지고있을 수 있습니다. 문제는 k- 수단으로 비 숫자 입력을 허용하지 않습니다. 어떻게하면 의미있는 해결책을 찾기 위해이 작업을 어떻게 진행해야합니까?

덕분에 당신은 여전히 ​​추상적으로 숫자 형태로 데이터를 표현하기 위해해야 ​​할 수도 있습니다

답변

2

클러스터링에는 거리 정의가 필요합니다.일부 거리 함수에 따라 항목이 "더 가깝다"면 클러스터는 클러스터입니다. 그들이 더 가까울수록 같은 클러스터에 속할 확률이 높습니다.

경우에 따라 지리적 좌표 또는 인구 통계 정보와 같이 도시와 관련된 다양한 데이터를 기반으로 클러스터를 만들고 다양한 경우에 클러스터가 겹치는 지 확인할 수 있습니다!

2

도움의 수단 의미가 있어야합니다.

바이너리 벡터를 사용하면 이것들에 k-means는 많은 것을 이해하지 못할 것이다.

아마도 k-means로 시작하는 가장 좋은 경우는 색상 양자화입니다. 사진을 찍고 모든 픽셀의 RGB 값을 3D 벡터로 사용하십시오. 그런 다음 원하는 수의 색상으로 k- 수단을 실행합니다. 색상 중심은 최종 팔레트이며 모든 픽셀은 색상 감소를 위해 가장 가까운 중심에 매핑됩니다.

이 K-수단 잘 작동하는 이유는 두 가지이다 :

  • 평균 실제로
  • 축은 R 복수의 화소의 평균 색을 찾는 말이, G 및 B는 유사한 의미를 갖는다 규모가 있으므로 편향이 없습니다.

넘어 서기를 원한다면 예를 들어 HSB 공간. 그리고 그것이 정말로 좋기를 원한다면 어려움에 빠지게 될 것입니다. 색조 값은 주기적이므로 평균과 일치하지 않습니다. 색조가 0-360도라고 가정하면 "평균"색조가 "1"과 "359"가 이 아닌이되지만 0입니다. 따라서이 데이터에서 k- 평균 결과는 부 최적이됩니다.

https://en.wikipedia.org/wiki/Color_quantization뿐만 아니라 스파 스 및 이진 데이터와 관련하여 여기에 2 가지 k- 의미 질문이 있습니다.

관련 문제