2017-12-12 1 views
1

말할 수 있습니까?작업과 파티션 간의 관계는 무엇입니까?

  1. Spark 작업 수와 Spark 파티션 수는 같습니까?

  2. 실행 프로그램이 실행되면 (실행 프로그램 내부의 일괄 처리) 한 작업과 동일합니까?

  3. 모든 작업은 파티션 만 생성합니까?

  4. Spark 작업의 수와 Spark 파티션의 수는 같습니까?

+0

데이터가 Spark에서 처리 될 때 처리는 소스에서 데이터를 가져와 필요한 모든 변환 또는 작업을 실행하는 작업에 의해 수행됩니다. 변환은 여러 단계로 나눌 수 있으며 이후 단계 실행에 영향을 줄 수있는 다른 수의 파티션으로 새로운 RDD 또는 데이터 프레임을 생성 할 수 있습니다. – luminousmen

답변

0

파티션은 RDD의 기능이며 디자인 타임에만 (작업이 호출되기 전에) 사용할 수 있습니다.

작업은 TaskSetStage/ActiveJob/Spark 응용 프로그램의 일부입니다.

Spark 작업 수와 Spark 파티션 수는 같습니까?

예.

실행 프로그램이 실행되면 (실행 프로그램 내부의 일괄 처리) 한 태스크와 동일합니까?

재귀 적으로 "실행 프로그램"을 사용하며 나에게 의미가 없습니다.

모든 작업은 파티션 만 생성합니까?

거의.

모든 작업은 파티션의 데이터에 대해 코드를 실행 한 출력을 생성합니다.

Spark 작업 수와 Spark 파티션 수는 같습니까?

거의.

하나의 단계에서 스파크 작업 의 수는 RDD 파티션의 수와 같습니다.

관련 문제