추가로 범주 형 변수

을 사용하여 2D 데이터를 세분화하면 세분화 문제가 발생합니다.
2 차원 공간에서 큰 세트의 점을 세분화하려고합니다.이 점에도 하나의 범주 형 변수가 있습니다. 기본 분할은 공간 데이터의 클러스터링에 의해 수행되어야하며, 필요한 경우 클러스터는 범주 형 변수를 기반으로 추가로 분할되어야합니다.추가로 범주 형 변수

다음은 예입니다 :
이의 우리가 도시에서 주택의 지리적 좌표의 데이터 집합을 가지고 있다고 가정 해 봅시다. 각 집의 위치 이외에 우리는 또한 그것이 어떤 색인지 알고 있습니다. 우리가 주택의 위치와 색깔을 계획한다면 우리는 아래 이미지를 얻게 될 것입니다. 이 마을에는 3 개의 이웃이 있으며, 그 중 2 개는 분리하기가 지리적으로 어렵지만 외모에 따라 분명히 구별됩니다.

위의 예는 고려 범주 형 변수를받지 않을 것 DBScan 또는 K-수단처럼 클러스터링 알고리즘과 세그먼트 어렵다. 또한 우리는 보라색과 오렌지색 주택을 분리 할 수 없습니다. 둘 다 같은 동네에서 찾을 수 있기 때문입니다. 또한 gower의 거리가있는 다차원 공간에서 클러스터링하기가 어려울 수 있습니다. 이는 홀수 색상이있는 집이 지리적 경계 외부의 클러스터에 할당 될 수 있기 때문입니다.

이 문제에 대한 좋은 접근 방법은 무엇입니까? 이런 종류의 문제를 처리 할 수있는 클러스터링 알고리즘의 파이썬 (또는 R) 구현이 있습니까? 아니면 컴퓨터 비전 접근 방식이 더 적합할까요?

모든 입력을 환영합니다.

출처

2017-11-23 C.M.

평균 변환 세그먼트를 보았습니까? – Shai

방금 살펴 봤는데 재미있어 보입니다. 그래도 혼합 된 범주 형 값의 클러스터와 함께 사용할 수 있습니까? 또한, 이것은 아마도 범주 형 값이 연속 변수에 매핑되어야한다는 것을 의미 할 것이라고 수정합니까? –

당신은 당신의 범주적인 데이터에 어떤 매핑을 적용해야 할 것입니다. 그러나 AFAIK 방법 선택을 사용하면 공간 영역과 다른 방식으로 "범주 적"차원을 처리 할 수 있습니다. 따라서 카테고리가 3 개인 경우 이진 3 벡터 (5D 데이터로 끝남)로 매핑 할 수 있습니다. – Shai

또 다른 접근법은 색상의 모든 부분 집합에 대해 별도로 DBSCAN을 실행하고 예상되는 큰 이웃 집합을 얻은 다음 집합 포함과 관련하여이 집합의 최소 요소를 취하는 것입니다. 위의 예에서

녹색 당신에게 남서부를 제공,
, 블루, 레드, 당신에게 북쪽과 남쪽 - 동쪽을 줄 빨간색 + 파란색
녹색 + 빨간색/파란색/모두 북쪽에 있으며 남쪽은 입니다 (두 개의 올바른 지역이 병합 됨). 그러면 최소 요소를 취하여 을 남쪽으로 필터링합니다.

출처

2017-11-29 00:49:46

안녕하세요 펠릭스, 제안 해 주셔서 감사합니다. 직관적으로 이것은 또한 나의 첫 접근 이었지만, 세트 포함은 분석을 복잡하게 만들었고 이미지를 오버 세그먼트하는 경향이있었습니다. 나는 여전히이 접근 방식을 개선하여 성능을 향상시키고 있지만 대체 전략에 관심이 있습니다. –

추가로 범주 형 변수

답변

관련 문제