Gnip API에서 읽고 Kafka 클러스터로 트윗을 전송하는 스파크 스트리밍 작업이 있습니다.일부 Kafka 노드 시간 오프셋이 동기화되지 않은 경우 스파크 스트리밍 작업이 중단됩니다.
Kouka 클러스터는 Cloudera Manager를 사용하여 설치됩니다.
때로는 클로더 관리자가 일부 카프카 노드에 대해 잘못된 상태 메시지를 표시합니다. 나쁜 상태 메시지는 NTP 서비스와 관련이 있습니다. 일부 노드는 갑자기 NTP 서버와 동기화되지 않습니다.
이러한 일이 발생하면 Spark 스트리밍 작업이 멈추고 많은 작업이 오랜 시간 동안 처리되지 않고 대기합니다.
카프카 노드와 NTP 서버의 동기화가 스파크 스트리밍 작업에서 카프카 제작자에게 영향을주는 이유는 무엇입니까?