나는 스파크 스트리밍을 사용하여 카프카 (Kafka)에서 데이터를 읽는 작업을 수행했다. 그러나 우리 조직은 Apache Flink 또는 Kafka 소비자를 사용하여 Apache kafka의 데이터를 표준 프로세스로 읽습니다. 따라서 Kafka 스트리밍을 Kafka 소비자 또는 Apache Flink로 대체해야합니다. 내 응용 프로그램의 경우에는 kafka에서 데이터를 읽고 json 데이터를 필터링하고 cassandra에 필드를 넣어야하므로 Kafka를 사용하여 처리 할 필요가 없으므로 Flink/기타 스트리밍 대신 Kafka 소비자를 사용하는 것이 좋습니다. json 데이터. 그래서 질문 아래 이해하기 위해 여러분의 도움이 필요합니다 :카프카 소비자 대 아파치 플 링크
우리가 불꽃 스트리밍 또는 FLINK의 경우처럼 내가 읽은 같은 연속적인 데이터를 얻을 수 있습니다, 카프카 소비자를 사용하십니까?
카프카 소비자는 kafka에서 데이터를 읽고, avce scehma를 사용하여 deserialize하고, 필드를 필터링하고 cassandra에 넣을 필요가 있다고 생각합니까?
카프카 소비자 응용 프로그램은 kafka 소비자 API를 사용하여 만들 수 있습니다. 맞습니까?
아파치 플 링크 대신 카프카 소비자를 사용한다면 어떤면이 있을까요?
또한 Kafka의 Streams API 사용을 고려해야합니다. 이것은 Kafka의 소비자 API보다 훨씬 강력합니다. https://kafka.apache.org/0102/documentation/streams 및 http://docs.confluent.io/current/streams/ –
애플리케이션을 어떻게 배포 할 계획입니까? 이미 조직에 "물건"을 배포하기위한 시스템이 있습니까? 시스템의 장기 계획은 무엇입니까? Cassandra로 섭취하기 위해 계속해서 사용하려고합니까 아니면 스트림의 데이터를 계산할 계획이 있습니까? –
@rmetzger : 소비자 API 작업을 실행할 수있는 독립 클러스터에 배포 할 계획입니다. 우리는 물건을 배치 할 기존 시스템이 없으며, 새로운 환경이 될 것입니다. 아이디어는 단지 kafka에서 데이터를 읽고, avro를 사용하여 json으로 변환하고, 필수 필드를 필터링하고, 계산을하지 않고 cassandra에 저장하는 것입니다. 귀하의 제안이 도움이 될 것입니다. –