2012-12-09 4 views
0

나는 빈곤, 인구 등의 데이터가 포함 된 미국 카운티 목록을 받았으며 k 평균 알고리즘을 사용하여 클러스터링을 수행했습니다. 클러스터링을 다음과 같이 교차 검증했습니다. 카운티를 교육 세트와 홀드 아웃 세트로 분할했습니다. 클러스터링 중 빈곤 기능을 제거한 다음 홀드 아웃 세트의 각 카운티별로 가장 가까운 클러스터를 찾은 다음 가장 가까운 클러스터의 평균 빈곤에서 카운티의 빈곤을 뺍니다. 마지막으로 위의 차이점을 제곱하여 홀드 아웃 세트의 모든 카운티에 대해 합산 한 다음 홀드 아웃 세트의 카운티 수로 나누었습니다. 그렇지만 나는 똑같이했으나 이번에는 빈곤 구제가 클러스터링에 참여했습니다. 나는 그 오류가 이전보다 현저하게 낮았 음을 보았지만 이것이 어떻게 든 부정 행위라고 읽었다. 왜 클러스터링에 빈곤이 포함되는지 이해하는 직관적 인 방법은 무엇입니까?k는 교차 유효성 확인을 의미합니다.

답변

1

poverty 속성을 사용하여 poverty 속성을 확인하려고합니다.

다른 예로, 자동차 세트가 있다고 가정합니다. 차의 일부 기능은 특정 색상을 가질 확률을 높입니다. 당신은 (훈련 세트를 제외하고) 차의 색깔을 모른다. 그러나 당신은 모델과 년과 같은 많은 다른 속성을 안다. 학습 세트를 사용하여 클러스터링 모델을 작성한 다음이를 기본 세트에 적용합니다. 클러스터에는 이제 같은 색상의 차량이 있어야합니다.

색상을 미리 알지 못했지만 다른 속성을 사용하여 색상에 따라 자동차를 클러스터링 할 수있었습니다 (희망 사항).

클러스터링 모델을 작성하는 데 color 속성을 사용하면 아무 것도 얻을 수 없습니다. 당신은 비슷한 색의 차를 모으기 위해 색을 사용할 것입니다. 인상적. 어떤 지식을 얻을 것입니까?

+0

정확히 내가 찾던 답변이었습니다! – kiriakosv

관련 문제