IoT 애플리케이션의 JSON 데이터가있는 Kafka 브로커가 있습니다. 몇 가지 처리를 수행하기 위해 Spark Streaming 애플리케이션에서이 서버에 연결합니다.Spark Streaming 응용 프로그램에서 캐시 된 데이터에 액세스하는 방법은 무엇입니까?
메모리 (RAM)에 cache()
및 persist()
연산자를 사용하여 달성 할 수 있다고 생각되는 내 json 데이터의 일부 특정 필드를 저장하고 싶습니다.
다음 번에 Spark Streaming 응용 프로그램에서 새 JSON 데이터를받을 때 검색 할 수있는 공통 필드가 있으면 메모리 (RAM)를 체크인합니다. 그리고 그렇다면 몇 가지 간단한 계산을 수행하고 마침내 메모리 (RAM)에 저장 한 필드의 값을 업데이트합니다.
따라서 이전에 내린 설명이 가능한지 알고 싶습니다. 그렇다면 cache() 또는 persist()를 사용해야합니까? 그리고 어떻게하면 메모리에서 내 필드를 검색 할 수 있습니까?