2016-12-24 2 views
0

Spark에서 나는 RDD로 데이터 세트를로드했으며 드물게 스트리밍 데이터를 추가했습니다. RDD는 잠금을 단순화하기 때문에 불변이라는 것을 알고 있습니다. 정적 및 스트리밍 데이터를 하나로 처리하는 다른 방법은 있습니까? Spark : How to append to cached rdd?Spark RDD apend

답변

1

http://spark.apache.org/streaming/에서보세요 : 전에

비슷한 질문을 질문하고있다.

스파크 스트리밍을 사용하면 반복 할 수있는 RDD 모음을 나타내는 데이터 구조를 얻을 수 있습니다. 카프카 대기열, 파일 시스템 등을 듣고 다음 RDD에 포함 할 새 데이터를 찾을 수 있습니다.

이러한 "추가"를 수행하는 경우는 거의 없으며 동일한 스키마를 가진 두 개의 RDD를 결합하여 새로운 결합 된 RDD를 얻을 수 있습니다.

+0

감사합니다. Brian. 스파크 스트리밍은 내가 정말로 원하는 것에 가깝게 보인다. 분산 된 가변 테이블. 내 정적 데이터가 크기 때문에 조합 op를 피하려고합니다. – Vortex