groupByKey가 RDD [key, value]를 제공하고이를 Map [key, RDD [values]]로 변환 할 방법을 찾지 못했습니다. 감사합니다. .아파치 스파크 : 어떻게 RDD [v]를 Map [k, RDD [v]]로 분할합니까?
1
A
답변
1
SV는 AFAIK 당신이 그런 키에 의해 RDD을 분할 할 수 있도록 할 원시 더 스파크가 없습니다. 유사한 결과를 얻기 위해 필터링을 사용하고 있습니다. 그리고 성능면에서는 필터가 셔플을 필요로하지 않기 때문에 실제로는 groupByKey
보다 훨씬 가볍습니다.
val keys = rdd.keys.collect
val dataByKey = keys.map(key => (key, rdd.filter(_._1 == key)).toMap
키가 작동하려면 드라이버의 메모리에 맞아야합니다.
+0
내 쿼리에 응답 해 주셔서 감사합니다. 나는 너의 제안을 시도 할 것이다. –
관련 문제
- 1. 스파크 RDD 데이터 선택
- 2. 스파크 RDD 파티션과 Hadoop 스플릿
- 3. RDD
- 4. 스파크 및 스칼라에서 json으로 RDD
- 5. 스파크 스트리밍 콘솔에서 RDD 출력
- 6. 나쁜 JSON에서 스파크 RDD 병합
- 7. 스파크 RDD any() 및 all() 메소드?
- 8. 스파크 목록은 모든 RDD 이름을 캐시
- 9. 스파크 필터와 카운트 큰 RDD 여러 번
- 10. 는 RDD
- 11. 여러 값을 반환하는 스파크 RDD 줄이기
- 12. 아파치 스파크 - 스칼라 -의 HashMap (K, HashMap의 [문자열, 더블 (V1, V2, ..))에 ((K, V1), (K, V2), ...)
- 13. 3 개의 RDD 오브젝트를 결합한 스파크
- 14. 스파크 RDD 유니온에 대해 매우 느림
- 15. 스파크 RDD : 여러 reducebykey 또는 한 번만
- 16. Spark SQL : RDD 연산과 어떻게 매핑됩니까?
- 17. 스칼라 : RDD
- 18. 첫 번째 RDD
- 19. 오류 RDD
- 20. pyspark하십시오 RDD
- 21. RDD joinWithCassandraTable
- 22. RDD 표준화
- 23. 큰 RDD
- 24. 아파치 스파크 : java.lang.NoSuchMethodError .rddToPairRDDFunctions
- 25. 그룹 RDD 항목 RDD에서
- 26. 스파크 : RDD [(Long, Iterable [String])]을 RDD [(Long, String)]로 변환하는 방법?
- 27. RDD 요소의 수를 동일하게 유지하십시오
- 28. 어떻게 키 - 값 쌍 RDD
- 29. 스파크 오류 RDD를 만들 때 RDD 유형을 찾을 수 없습니다.
- 30. RDD toDF() : 잘못된 동작
[RDD를 두 개 이상의 RDD로 분할하는 방법] 가능한 복제본?] (http://stackoverflow.com/questions/32970709/how-to-split-a-rdd-into-t-o--more- rdds) –