k- means을 Spark과 함께 연습하고 있습니다. 이렇게하려면 각 단계에서 id -> cluster_id
의 2 개지도를 비교해야합니다. 현재 나는 그 두 가지를 모으고 두 개의 평범한 스칼라지도로 비교함으로써 그것을합니다.RDD [(Int, Int)] 맵과 비교하는 방법은 무엇입니까?
병렬로 처리하는 방법이 있습니까? 그만한 가치가 있니?
는 UPDATE :
나를 시작으로, 자세한 상황을 설명하자 K-위한 수단 클러스터링 algorithim (는 간단합니다)
- 그들에게 무게 중심을 모든 N 지점에서 임의 K 점을 선택합니다.
- 재 계산 매핑을 (생성 된 경우 그
- 단계를 반복 2-3의 평균을 caclulating, 할당 된 무게 중심으로 모든 점을 그룹화,
- recalclulate의 무게 중심을 (Eucledean 거리에 따라) 가장 가까운 중심에 각 지점을 할당 obj_id -> centroid_id) 이전 단계와 다른 것
4 단계는 문제입니다. 이전 단계에서 사용한 매핑과 현재 가지고있는 매핑을 비교할 필요가 있습니다. 이는 작업자간에 무작위로 읽지 않고 병렬 처리해야합니다.
몇 가지 세부 사항을 질문에 추가했습니다. –