0
Spark 1.6.0을 사용하고 있습니다. 분할 된 쪽모짓 데이터를 읽는 DataFrame APISpark에서 쪽모퉁이 데이터를 읽을 때 파티션 수
얼마나 많은 파티션이 사용되는지 궁금합니다. , GB
- 2182 파일
- 196 파티션
- 2 내가
count
을 수행 할 때 때문 스파크가 2182 개 파티션을 사용하는 것 같다여기 내 데이터에 대한 몇 가지 수치입니다 작업은 2182 개의 작업으로 분할됩니다.
의는
df.rdd.partitions.length
에 의해 확인 될 수 있음을 맞 것처럼 보인다? 모든 경우에 ?
예인 경우 데이터 양이 너무 많습니까? 즉 줄이려면
df.repartition
을 사용해야합니까?