0
Spark는 하나의 Dstream에서 여러 카프카 주제를 어떻게 처리합니까?Spark Streaming에서 여러 주제를 처리하는 방법
1. 1 행씩.
2. 동시에 (실행 프로그램 별 주제 - 파티션).
Spark는 하나의 Dstream에서 여러 카프카 주제를 어떻게 처리합니까?Spark Streaming에서 여러 주제를 처리하는 방법
1. 1 행씩.
2. 동시에 (실행 프로그램 별 주제 - 파티션).
DirectStream 메서드에서 스파크 프로세스 Kafka 데이터가 병렬로 처리됩니다. 즉 각 실행 프로그램 코어는 해당 카프카 주제 및 파티션에서 데이터를 가져옵니다.
3 개의 파티션이있는 주제가 각각 2 개 있다고 가정 해 보겠습니다. 그리고 각각 2 명의 코어를 가진 3 명의 집행자가 있습니다.
이 2 가지 항목을 읽는다면 spark는 6 가지 작업 (= 6 가지 코어)으로 1 개의 작업을 시작하고 각 작업은 해당 항목 + 파티션에서 데이터를 가져옵니다. 그리고 이러한 모든 작업은 병렬로 실행됩니다.
희망이 도움이됩니다.
고맙습니다. 도움이되었습니다. – saeed