지속 스파크 RDD는 다른 스파크 셸에서는 사용할 수 없습니다.

우리는 스파크 RDD가 스파크 셸을 사용하여 만들어진 독립 실행 형 2 노드 클러스터 인 Spark-1.1.0을 가지고 있습니다. RDD가 지속되었습니다 (MEMORY_ONLY). sc.getPersistentRDDs()를 사용하여 다른 Spark 셸에서이 RDD를 검색 할 수 없습니다. 내가 놓친 게 있니?지속 스파크 RDD는 다른 스파크 셸에서는 사용할 수 없습니다.

출처

2014-10-29 smantripragada

RDD는 해당 RDD를 시작한 SparkContext 컨텍스트 내에서 유지되며 해당 RDD를 만든 Spark Context를 통해서만 액세스 할 수 있습니다.

즉, 두 번째 Spark-shell의 경우처럼 다른 SparkContext B에서 SparkContext로 만든 RDD에 액세스 할 수 없습니다.

출처

2014-10-29 13:43:53 maasg

감사합니다. 그렇다면 미래에 사용할 수 있도록 생성되고 지속되는 RDD를 공유 할 수있는 방법이 없다는 뜻입니까? 이것은 Spark의 반복 처리 원칙에 약간의 반증 인 것으로 보입니다. – smantripragada

반복 프로세스는 동일한 데이터 세트를 여러 번 거쳐야하는 알고리즘과 관련이 있으며, 매번 일부 계산을 수행하고 잠재적으로이를 변환합니다. '미래 사용'을 위해 계산 결과를 다시 사용하려는 경우 RDD를 디스크에 항상 저장할 수 있습니다. 또한 [Tachyon] (http://tachyon-project.org/)에서 메모리 내 대안을 찾아 볼 수 있습니다. – maasg

maasg, 고맙습니다. 나는 지속의 의미를 잘못 해석했다. – smantripragada

지속 스파크 RDD는 다른 스파크 셸에서는 사용할 수 없습니다.

답변

관련 문제