notify
Consumer
이 가능합니까? Producer
이 모든 데이터를 Kafka topic
으로 게시하면 되나요?Spark Streaming - 제작자가 완료되면 어떻게 소비자에게 통보합니까?
여러 파티션에서 동일한 데이터 (일부 고유 필드 포함)를 사용할 수있는 가능성이 있으므로 데이터를 그룹화하고 계산해야합니다.
이 경우 Sliding window
을 사용하려고 생각했지만 제작자가 데이터를 게시했는지 여부는 아직 알 수 없습니다.
메시지의 양은 around 50K
입니다. 더 나은 구성을 가진 브로커가있는 경우 Kafka는 50K messages[Single partition]
을 초 단위로 처리 할 수 있습니까?
현재 우리는 Default Partitioner
을 기반으로 데이터를 분할하기 위해 여러 개의 파티션을 가질 계획입니다.
효율적인 처리 방법은 무엇입니까?
는업데이트 :
매 15 분마다 한 번, 생산자는 데이터를 얻을 수 있으며, 내가이 배치에 대한 사용 사례입니다 확신 카프카 항목에 데이터를 게시 시작, 그러나 이것은 우리의 현재 디자인입니다.
스트림에 대해 이야기 할 때 "완료"란 의미가 확실하지 않습니다. 그들이 길이가 한정되어 있지 않은 개울의 전체 지점이 아닌가? 제작자가 일괄 처리 메시지를 생성하고 일괄 처리 경계를 염려한다면 "일괄 처리 완료"메시지를 게시 할 수 있습니다. –
@JoePallas : 요점은 모르겠다. "배치 끝"메시지를 게시하면 무슨 뜻입니까? – Shankar
생산자는 배치 처리를 마쳤지 만 소비자는 배치의 모든 메시지를 보았는지 여부를 알지 못합니다. 제작자가 배치의 모든 데이터가 게시 된 후 특수한 "end of batch"메시지를 게시하는 경우 소비자는 배치를 처리하기 전에이를 확인할 때까지 기다릴 수 있습니다. 파티션이 여러 개인 경우 더 복잡해질 수 있습니다. 마커는 모든 파티션으로 이동해야합니다. –