Spark에서 쪽모퉁이 데이터를 읽을 때 파티션 수

Spark 1.6.0을 사용하고 있습니다. 분할 된 쪽모짓 데이터를 읽는 DataFrame APISpark에서 쪽모퉁이 데이터를 읽을 때 파티션 수

얼마나 많은 파티션이 사용되는지 궁금합니다. , GB

2182 파일
196 파티션
2 내가 count을 수행 할 때 때문 스파크가 2182 개 파티션을 사용하는 것 같다

여기 내 데이터에 대한 몇 가지 수치입니다 작업은 2182 개의 작업으로 분할됩니다.

의는 df.rdd.partitions.length

에 의해 확인 될 수 있음을 맞 것처럼 보인다? 모든 경우에 ?

예인 경우 데이터 양이 너무 많습니까? 즉 줄이려면 df.repartition을 사용해야합니까?

2016-11-14 Yann Moisan

예 재 파티션 방법을 사용하여 사용 가능한 리소스와 균형을 이룬 작업 수를 줄일 수 있습니다. 또한 노드 당 실행 프로그램의 수를 정의해야합니다. 작업을 병렬로 실행하고 최대 리소스를 활용할 수 있도록 응용 프로그램을 제출하는 동안 노드 당 노드와 메모리가 필요합니다.

출처

2016-11-14 13:18:23

Spark에서 쪽모퉁이 데이터를 읽을 때 파티션 수

답변

관련 문제