3

카프카와 협력해야 할 수도 있습니다. 나는 kafka의 주제에 로그를 얻을 Kafka 제작자가 있다는 것을 알고 있습니다.카프카 소비자의 스파크 스트리밍

소비자를 통해 카프카 주제에서 읽기 작업을해야합니다. 먼저 SparkStreaming Context (PySpark)를 사용하여 스트리밍하거나 KafkaUtils 모듈을 사용하여 kafka 주제를 읽을 수 있도록 소비자 API를 설정해야합니까?

카프카 소비자 응용 프로그램을 설치해야하는 경우 어떻게해야합니까? 오른쪽 문서에 대한 링크를 공유 할 수 있습니까?

미리 감사드립니다.

답변

2

스파크는 맞춤형 소비자를 만들 필요가없는 내부 카프카 스트림을 제공합니다. 카프카 1과 수신기 2의 직접 접근 방식을 연결하는 2 가지 방법이 있습니다. 자세한 내용은이 링크를 참조하십시오. http://spark.apache.org/docs/latest/streaming-kafka-integration.html

+0

파이썬을 지원하지 않는 곳에서는 말합니다. Kafka에서 스트림을 읽으려고 했습니까? 거기에서 로그를 조금이라도 소비하는 코드 스 니펫을 공유 할 수 있습니까? –

+0

오 그래, pyspark에서 지원하지 않으므로 맞춤 스트림을 만들 수 있습니다. http://spark.apache.org/docs/latest/streaming-custom-receivers.html –

1

kafka 소비자 응용 프로그램을 설치할 필요가 없습니다. Spark 자체는 2 가지 방법으로 소비자를 만듭니다. 하나는 KafkaUtils 클래스를 사용하는 Reciever Based Approach이고 다른 하나는 CreateDirectStream Method를 사용하는 Direct Approach입니다. 어쨌든, 실패한 경우 스파크 스트리밍으로 인해 데이터가 손실되지 않고 왼쪽에서 벗어난 데이터의 오프셋부터 시작됩니다.

자세한 내용은 다음 링크를 사용하십시오. http://spark.apache.org/docs/latest/streaming-kafka-integration.html

관련 문제