2016-06-06 2 views
4

현재 spark 및 foreach 파티션을 사용하여 데이터를 처리하고 있습니다. mysql에 대한 연결을 열고 1000의 배치로 데이터베이스에 삽입하십시오. SparkDocumentation 기본값으로 언급했듯이 spark.sql.shuffle.partitions은 200이지만 동적으로 유지하려고합니다. 그래서 어떻게 계산합니까? 따라서 성능 저하를 일으키는 매우 높은 값을 선택하거나 OOM을 유발하는 매우 작은 값을 선택하지 마십시오.spark.sql.shuffle.partitions를 동적으로 선택하는 방법

답변

-2

이렇게하려면 df.repartition (numPartitions) 메서드를 사용할 수 있습니다. 입력/중간 출력을 기준으로 결정을 내리고 numPartitions를 numPartitions에서 repartition() 메소드로 전달할 수 있습니다.

df.repartition(numPartitions) or rdd.repartition(numPartitions) 
+0

아니요, 작동하지 않습니다. df.repartition (numPartitions) – tauitdnmd

관련 문제