을 사용하여 2D 데이터를 세분화하면 세분화 문제가 발생합니다.
2 차원 공간에서 큰 세트의 점을 세분화하려고합니다.이 점에도 하나의 범주 형 변수가 있습니다. 기본 분할은 공간 데이터의 클러스터링에 의해 수행되어야하며, 필요한 경우 클러스터는 범주 형 변수를 기반으로 추가로 분할되어야합니다.추가로 범주 형 변수
다음은 예입니다 :
이의 우리가 도시에서 주택의 지리적 좌표의 데이터 집합을 가지고 있다고 가정 해 봅시다. 각 집의 위치 이외에 우리는 또한 그것이 어떤 색인지 알고 있습니다. 우리가 주택의 위치와 색깔을 계획한다면 우리는 아래 이미지를 얻게 될 것입니다. 이 마을에는 3 개의 이웃이 있으며, 그 중 2 개는 분리하기가 지리적으로 어렵지만 외모에 따라 분명히 구별됩니다.
위의 예는 고려 범주 형 변수를받지 않을 것 DBScan 또는 K-수단처럼 클러스터링 알고리즘과 세그먼트 어렵다. 또한 우리는 보라색과 오렌지색 주택을 분리 할 수 없습니다. 둘 다 같은 동네에서 찾을 수 있기 때문입니다. 또한 gower의 거리가있는 다차원 공간에서 클러스터링하기가 어려울 수 있습니다. 이는 홀수 색상이있는 집이 지리적 경계 외부의 클러스터에 할당 될 수 있기 때문입니다.
이 문제에 대한 좋은 접근 방법은 무엇입니까? 이런 종류의 문제를 처리 할 수있는 클러스터링 알고리즘의 파이썬 (또는 R) 구현이 있습니까? 아니면 컴퓨터 비전 접근 방식이 더 적합할까요?
모든 입력을 환영합니다.
평균 변환 세그먼트를 보았습니까? – Shai
방금 살펴 봤는데 재미있어 보입니다. 그래도 혼합 된 범주 형 값의 클러스터와 함께 사용할 수 있습니까? 또한, 이것은 아마도 범주 형 값이 연속 변수에 매핑되어야한다는 것을 의미 할 것이라고 수정합니까? –
당신은 당신의 범주적인 데이터에 어떤 매핑을 적용해야 할 것입니다. 그러나 AFAIK 방법 선택을 사용하면 공간 영역과 다른 방식으로 "범주 적"차원을 처리 할 수 있습니다. 따라서 카테고리가 3 개인 경우 이진 3 벡터 (5D 데이터로 끝남)로 매핑 할 수 있습니다. – Shai