그래서 파이크 (Pyspark)를 사용하여 스파크를 배우려고합니다. 나는 기능이 mapPartitions
어떻게 작동하는지 알고 싶다. 그것이 Input이 취하는 것과 Output이주는 것입니다. 인터넷에서 적절한 예를 찾을 수 없었습니다. 말하자면, 아래 목록과 같은 목록을 포함하는 RDD 객체가 있습니다.pyspark mapPartitions 함수는 어떻게 작동합니까?
[ [1, 2, 3], [3, 2, 4], [5, 2, 7] ]
그리고 나는 모든 목록에서 요소 (2)를 제거하려면, 어떻게 내가 mapPartitions
를 사용하는 것을 달성 할 것입니다.
filterOut2FromPartition f에서 아무 것도 반환하지 않는 이유는 무엇입니까? 기름 부음. 둘째, 파이썬에서 마지막으로 키워드가 있습니까? 제 말은 final_iterator 대신 final.iterator = []라고 말한 것 같습니다. – MetallicPriest
문제를 해결했습니다. – bearrito
이것을 구현하려고했지만 "목록 객체가 반복자가 아닙니다"라는 오류가 발생합니다. 또한, 당신이 [x = 2 인 경우 x에 대해 x에 대해 썼을 때]라고 생각합니다. x! = 2이면 [x는 목록에서 x를 의미합니다.]라고 생각합니다. 거기에 목록을 사용했습니다. – MetallicPriest