2017-09-18 1 views
0

각 스파크 작업자가 반복간에 변수를 보유해야한다는 요구 사항이 있습니다. 변수는 모든 RDD에 포함하기에는 너무 큰 구조입니다. foreachpartition을 사용할 수는 있지만 파티션 당 한 번 변수를 전달하는 메커니즘은 없습니다 (나중에 다시 전달할 수도 있습니다). 같은 id를 가진 파티션에 대한 호출 간에는 연속성이 없습니다. 반복되는 방송은 너무 비싸다. 어느 누구도이 문제를 해결할 방법을 알고 있습니까?pyspark foreachpartition을 사용하지만 파티션 별 변수는 그대로 유지하십시오.

+0

Apache Ignite가 이에 대한 대답입니까? – bhomass

답변

1

이러한 변수의 배열을 보내고 partition_id를 사용하여 연속성 값을 액세스 할 수 있습니다.

+0

감사합니다. 나는 같은 결론에 도달했습니다. – bhomass

관련 문제