1
org.apache.spark.sql.Dataset#persist()
을 호출하면 실제로 스파크가 캐시됩니까? Dataset
? 또는 어떤 터미널 작업 (예 : count
)이 Dataset
에서 호출 될 때 지연 캐시됩니다.Dataset # persist()는 터미널 작업입니까?
org.apache.spark.sql.Dataset#persist()
을 호출하면 실제로 스파크가 캐시됩니까? Dataset
? 또는 어떤 터미널 작업 (예 : count
)이 Dataset
에서 호출 될 때 지연 캐시됩니다.Dataset # persist()는 터미널 작업입니까?
Spark Dataset.persist
의 모든 캐싱 작업은 지연이며 캐싱을 위해 지정된 개체에 대해서만 평가가 이루어집니다.
RDD와 비교하여 가장 큰 차이점은 평가가 추론하기가 훨씬 어렵다는 점입니다. 개발자 목록에서 관련 토론 참조 : Will .count() always trigger an evaluation of each row?