2017-03-17 5 views
0

Spark Streaming 작업에서 CPU 사용률은 5 ~ 10 %입니다.낮은 Spark Streaming CPU 사용률

카프 카에서 데이터를 가져 와서 DynomoDB 또는 thridparty 끝점으로 보냅니다.

끝점에 병목이 없다고 가정하면 CPU 리소스를 더 잘 활용할 수있는 권장 사항이 있습니까?

답변

0

카프카의 병렬 처리 수준은 주제의 파티션 수에 따라 다릅니다.

토픽의 파티션 수가 적 으면 스파크 스트리밍 클러스터에서 효율적으로 병렬 처리 할 수 ​​없습니다.

먼저 주제의 파티션 수를 늘리십시오.

카프카 항목의 파티션을 늘릴 수없는 경우 DStream.foreachRdd 다음에 다시 분할하여 파티션 수를 늘리십시오.

이렇게하면 모든 노드에서 데이터가 분산되어 더 효율적입니다.