2016-07-13 2 views

답변

0

DirectStream 메서드에서 스파크 프로세스 Kafka 데이터가 병렬로 처리됩니다. 즉 각 실행 프로그램 코어는 해당 카프카 주제 및 파티션에서 데이터를 가져옵니다.

3 개의 파티션이있는 주제가 각각 2 개 있다고 가정 해 보겠습니다. 그리고 각각 2 명의 코어를 가진 3 명의 집행자가 있습니다.

이 2 가지 항목을 읽는다면 spark는 6 가지 작업 (= 6 가지 코어)으로 1 개의 작업을 시작하고 각 작업은 해당 항목 + 파티션에서 데이터를 가져옵니다. 그리고 이러한 모든 작업은 병렬로 실행됩니다.

희망이 도움이됩니다.

+0

고맙습니다. 도움이되었습니다. – saeed

관련 문제