2

을 사용하여 2D 데이터를 세분화하면 세분화 문제가 발생합니다.
2 차원 공간에서 큰 세트의 점을 세분화하려고합니다.이 점에도 하나의 범주 형 변수가 있습니다. 기본 분할은 공간 데이터의 클러스터링에 의해 수행되어야하며, 필요한 경우 클러스터는 범주 형 변수를 기반으로 추가로 분할되어야합니다.추가로 범주 형 변수

다음은 예입니다 :
이의 우리가 도시에서 주택의 지리적 좌표의 데이터 집합을 가지고 있다고 가정 해 봅시다. 각 집의 위치 이외에 우리는 또한 그것이 어떤 색인지 알고 있습니다. 우리가 주택의 위치와 색깔을 계획한다면 우리는 아래 이미지를 얻게 될 것입니다. 이 마을에는 3 개의 이웃이 있으며, 그 중 2 개는 분리하기가 지리적으로 어렵지만 외모에 따라 분명히 구별됩니다.

Picture of three clusters. One is clearly separate, the other two border but can be separated based on colour (green on one side, orange and purple on the other

위의 예는 고려 범주 형 변수를받지 않을 것 DBScan 또는 K-수단처럼 클러스터링 알고리즘과 세그먼트 어렵다. 또한 우리는 보라색과 오렌지색 주택을 분리 할 수 ​​없습니다. 둘 다 같은 동네에서 찾을 수 있기 때문입니다. 또한 gower의 거리가있는 다차원 공간에서 클러스터링하기가 어려울 수 있습니다. 이는 홀수 색상이있는 집이 지리적 경계 외부의 클러스터에 할당 될 수 있기 때문입니다.

이 문제에 대한 좋은 접근 방법은 무엇입니까? 이런 종류의 문제를 처리 할 수있는 클러스터링 알고리즘의 파이썬 (또는 R) 구현이 있습니까? 아니면 컴퓨터 비전 접근 방식이 더 적합할까요?

모든 입력을 환영합니다.

+0

평균 변환 세그먼트를 보았습니까? – Shai

+0

방금 ​​살펴 봤는데 재미있어 보입니다. 그래도 혼합 된 범주 형 값의 클러스터와 함께 사용할 수 있습니까? 또한, 이것은 아마도 범주 형 값이 연속 변수에 매핑되어야한다는 것을 의미 할 것이라고 수정합니까? –

+1

당신은 당신의 범주적인 데이터에 어떤 매핑을 적용해야 할 것입니다. 그러나 AFAIK 방법 선택을 사용하면 공간 영역과 다른 방식으로 "범주 적"차원을 처리 할 수 ​​있습니다. 따라서 카테고리가 3 개인 경우 이진 3 벡터 (5D 데이터로 끝남)로 매핑 할 수 있습니다. – Shai

답변

0

또 다른 접근법은 색상의 모든 부분 집합에 대해 별도로 DBSCAN을 실행하고 예상되는 큰 이웃 집합을 얻은 다음 집합 포함과 관련하여이 집합의 최소 요소를 취하는 것입니다. 위의 예에서

:

  • 녹색 당신에게 남서부를 제공,
  • , 블루, 레드, 당신에게 북쪽과 남쪽 - 동쪽을 줄 빨간색 + 파란색
  • 녹색 + 빨간색/파란색/모두 북쪽에 있으며 남쪽은 입니다 (두 개의 올바른 지역이 병합 됨). 그러면 최소 요소를 취하여 을 남쪽으로 필터링합니다.
+0

안녕하세요 펠릭스, 제안 해 주셔서 감사합니다. 직관적으로 이것은 또한 나의 첫 접근 이었지만, 세트 포함은 분석을 복잡하게 만들었고 이미지를 오버 세그먼트하는 경향이있었습니다. 나는 여전히이 접근 방식을 개선하여 성능을 향상시키고 있지만 대체 전략에 관심이 있습니다. –

관련 문제