2016-12-05 2 views
1

Apache Kafka 데이터 스트림을 소스로 연결하는 Spark 2.0.2 구조화 된 스트리밍 작업이 있습니다. 이 작업은 kafka의 트위터 데이터 (JSON)를 가져오고 CoreNLP를 사용하여 감정, 품사 태깅 등과 같은 데이터를 주석으로 처리합니다. 로컬 [*] 마스터에서 잘 작동합니다. 그러나 독립형 스파크 클러스터를 설정하면 한 명의 작업자 만 데이터 처리에 익숙해집니다. 나는 동일한 능력을 가진 두 명의 노동자를 가지고있다.구조화 된 스트리밍 작업이 모든 작업자를 사용하지 않음

실종 신고서를 제출할 때 필요한 사항이 있습니까? spark-submit 명령에서 --num-executors를 설정하려고 시도했지만 운이 없었습니다.

포인터를 올바른 방향으로 미리 보내 주셔서 감사합니다.

+0

Spark이 ** RDD를 올바르게 파티션하지 않으므로 실행 프로그램에로드가 균등하게 분산되지 않습니다. 그런 다음 코드에서 시작시 파티션을 지정하는 방법을 지정할 수 있습니다 (예 : https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-rdd-partitions.html 참조). –

답변

0

더 많은 파티션이있는 카프카 소스 스트림을 만들었습니다. 이것은 처리 부분을 9 배 가속화시킨 것 같습니다. 스파크와 카프카에는 많은 손잡이가 있습니다. 많이 훑어보기 ... Kafka topic partitions to Spark streaming

관련 문제