제 질문은 PySpark reduceByKey on multiple values과 비슷하지만 다소 차이가 있습니다. 필자는 PySpark를 처음 사용하므로 확실한 내용이 빠져 있습니다.중첩 된 튜플의 Pyspark reduceByKey
(K0, ((k01,v01), (k02,v02), ...))
....
(Kn, ((kn1,vn1), (kn2,vn2), ...))
내가 출력으로 원하는 것은이 reduceByKey
를 사용하는 완벽한 경우처럼 보인다
(K0, v01+v02+...)
...
(Kn, vn1+vn2+...)
추천하고 내가 생각했던 처음에 뭔가가 :
나는 다음과 같은 구조를 가진 RDD이 무엇이든 같은 것
rdd.reduceByKey(lambda x,y: x[1]+y[1])
내가 시작했던 RDD가 정확히 무엇인지 알 수있다. 와. 중첩 된 튜플이 있기 때문에 내 인덱싱에 문제가 있다고 생각합니다.하지만 생각할 수있는 모든 가능한 인덱스 조합을 시도했으며 초기 RDD를 다시 돌려줍니다.
중첩 된 튜플과 함께 작동해서는 안되는 이유가 있을까요? 아니면 잘못된 것을하고 있습니까?
. 예, 키는 고유하므로 mapValues 방식은 필요한 것입니다. 고맙습니다. –