2017-10-21 1 views
0

정수 목록의 RDD를 하나의 목록으로 축소하고 싶습니다. 예를 들어 ...pyspark에서 요소 별 목록 추가

[1, 2, 3, 4] 
[2, 3, 4, 5] 

[3, 5, 7, 9] 

에 나는 우편 기능 그러나 개체에 수집하고 이외의 불꽃에 복제하는 방법을 잘하지를 사용하여 파이썬에서이 작업을 수행 할 수 있습니다하지만 난 유지하려면 rdd 내의 데이터 rdd의 모든 요소가 같은 길이의 경우

답변

1

, 당신은 zipreduce를 사용할 수 있습니다

rdd = sc.parallelize([[1,2,3,4],[2,3,4,5]]) 

rdd.reduce(lambda x, y: [i+j for i, j in zip(x, y)]) 
# [3, 5, 7, 9] 
+0

감사합니다! 나는 그런 것을 시도했지만 그것을 x와 y로 나누는 것을 생각하지 않았습니다. – pad11