2014-10-20 2 views

답변

1

SV는 AFAIK 당신이 그런 키에 의해 RDD을 분할 할 수 있도록 할 원시 더 스파크가 없습니다. 유사한 결과를 얻기 위해 필터링을 사용하고 있습니다. 그리고 성능면에서는 필터가 셔플을 필요로하지 않기 때문에 실제로는 groupByKey보다 훨씬 가볍습니다.

val keys = rdd.keys.collect 
val dataByKey = keys.map(key => (key, rdd.filter(_._1 == key)).toMap 

키가 작동하려면 드라이버의 메모리에 맞아야합니다.

+0

내 쿼리에 응답 해 주셔서 감사합니다. 나는 너의 제안을 시도 할 것이다. –