Q

Spark Streaming에서 여러 주제를 처리하는 방법

spark-streaming

2016-07-13 2 views 0 likes

0

Spark는 하나의 Dstream에서 여러 카프카 주제를 어떻게 처리합니까?Spark Streaming에서 여러 주제를 처리하는 방법

1. 1 행씩.

2. 동시에 (실행 프로그램 별 주제 - 파티션).

2016-07-13 saeed

A

답변

0

DirectStream 메서드에서 스파크 프로세스 Kafka 데이터가 병렬로 처리됩니다. 즉 각 실행 프로그램 코어는 해당 카프카 주제 및 파티션에서 데이터를 가져옵니다.

3 개의 파티션이있는 주제가 각각 2 개 있다고 가정 해 보겠습니다. 그리고 각각 2 명의 코어를 가진 3 명의 집행자가 있습니다.

이 2 가지 항목을 읽는다면 spark는 6 가지 작업 (= 6 가지 코어)으로 1 개의 작업을 시작하고 각 작업은 해당 항목 + 파티션에서 데이터를 가져옵니다. 그리고 이러한 모든 작업은 병렬로 실행됩니다.

희망이 도움이됩니다.

2016-07-13 17:38:56 avr

+0

고맙습니다. 도움이되었습니다. – saeed

관련 문제