2017-03-01 1 views

답변

2

Spark Dataset.persist의 모든 캐싱 작업은 지연이며 캐싱을 위해 지정된 개체에 대해서만 평가가 이루어집니다.

RDD와 비교하여 가장 큰 차이점은 평가가 추론하기가 훨씬 어렵다는 점입니다. 개발자 목록에서 관련 토론 참조 : Will .count() always trigger an evaluation of each row?

관련 문제