2016-11-14 1 views
0

Spark 1.6.0을 사용하고 있습니다. 분할 된 쪽모짓 데이터를 읽는 DataFrame APISpark에서 쪽모퉁이 데이터를 읽을 때 파티션 수

얼마나 많은 파티션이 사용되는지 궁금합니다. , GB

  • 2182 파일
  • 196 파티션
  • 2 내가 count을 수행 할 때 때문 스파크가 2182 개 파티션을 사용하는 것 같다

    여기 내 데이터에 대한 몇 가지 수치입니다 작업은 2182 개의 작업으로 분할됩니다.

    의는 df.rdd.partitions.length

    에 의해 확인 될 수 있음을 맞 것처럼 보인다? 모든 경우에 ?

    예인 경우 데이터 양이 너무 많습니까? 즉 줄이려면 df.repartition을 사용해야합니까?

답변

0

예 재 파티션 방법을 사용하여 사용 가능한 리소스와 균형을 이룬 작업 수를 줄일 수 있습니다. 또한 노드 당 실행 프로그램의 수를 정의해야합니다. 작업을 병렬로 실행하고 최대 리소스를 활용할 수 있도록 응용 프로그램을 제출하는 동안 노드 당 노드와 메모리가 필요합니다.

관련 문제