큰 데이터 파일에 Kmeans 클러스터링 알고리즘을위한 mapreduce 프로그램을 작성 중입니다. 각 관찰은 범주 형 변수와 숫자 형 변수를 모두 포함하는 열로 구성됩니다. Kmeans의 경우 거리 계산에 범주 형 변수를 포함하는 것은 적합하지 않습니다. 따라서 우리는 범주 항목을 사용하여 열을 필터링해야합니다.카테고리 변수를 다루는 KMeans
내 질문에 : 문자로 항목을 필터링하는 것은 쉽지만 열에 숫자 만 있지만 범주 (예 : 우편 번호, ID)로 처리하면 어떻게 될까요?
감사합니다.