4
현재 spark 및 foreach 파티션을 사용하여 데이터를 처리하고 있습니다. mysql에 대한 연결을 열고 1000의 배치로 데이터베이스에 삽입하십시오. SparkDocumentation 기본값으로 언급했듯이 spark.sql.shuffle.partitions
은 200이지만 동적으로 유지하려고합니다. 그래서 어떻게 계산합니까? 따라서 성능 저하를 일으키는 매우 높은 값을 선택하거나 OOM
을 유발하는 매우 작은 값을 선택하지 마십시오.spark.sql.shuffle.partitions를 동적으로 선택하는 방법
아니요, 작동하지 않습니다. df.repartition (numPartitions) – tauitdnmd