Dataset # persist()는 터미널 작업입니까?

org.apache.spark.sql.Dataset#persist()을 호출하면 실제로 스파크가 캐시됩니까? Dataset? 또는 어떤 터미널 작업 (예 : count)이 Dataset에서 호출 될 때 지연 캐시됩니다.Dataset # persist()는 터미널 작업입니까?

출처

2017-03-01 vatsal mevada

Spark Dataset.persist의 모든 캐싱 작업은 지연이며 캐싱을 위해 지정된 개체에 대해서만 평가가 이루어집니다.

RDD와 비교하여 가장 큰 차이점은 평가가 추론하기가 훨씬 어렵다는 점입니다. 개발자 목록에서 관련 토론 참조 : Will .count() always trigger an evaluation of each row?

출처

2017-03-01 15:01:02 user6910411

Dataset # persist()는 터미널 작업입니까?

답변

관련 문제