2017-03-24 2 views

답변

3

map (func) 무엇이 발생합니까? 제공된 함수를 통해 RDD의 각 요소를 전달하십시오. 즉 FUNC

flatMap (FUNC) "지도와 비슷하지만 각 입력 항목이 0 이상의 출력 항목에 매핑 할 수 있습니다 (그래서 FUNC가 단일 항목이 아닌 서열을 반환해야합니다)."

다음 enter image description here

mapPartitions (FUNC) 가 mapPartitions 성능 최적화를위한 도구를 고려에 매핑 flatMap 비교. 로컬 시스템에서 클러스터에서 실행하는 것과 비교하여 예제를 실행할 때 많이 도움이되지는 않습니다. 지도와 동일하지만 Spark RDD 파티션에서 작동합니다. RDD의 첫 번째 D는 "분산 형"- Resilient Distributed Datasets입니다. 또는 다른 말로하면 파티션에 분산되어 있다고 말할 수 있습니다. 또한 mapPartitions 유사하지만 enter image description here

mapPartitionsWithIndex (FUNC)는 파티션의 인덱스 위치를 나타내는 int 값과 기능을 제공한다. enter image description here

우리는 크게 3 개 조각, 우리의 출력 변화와 parallelize'd 목록을 사용하는 위의 예제를 변경하는 경우 : enter image description here

관련 문제