R/spark를 사용하여 여러 csv 데이터 파일을 반복합니다. 각 파일의 약 1 %는 유지되어야하고 (특정 기준에 따라 필터링되어야 함) 다음 데이터 파일과 병합되어야합니다 (나는 union
/rbind
을 사용했습니다). 그러나 루프가 실행되면 spark에서 모든 이전 데이터 집합 및 filter()
-s를 기억하므로 데이터의 계보가 길어지고 길어집니다.SparkR의 체크 포인트 데이터 프레임
spark R API에서 검사 점을 수행하는 방법이 있습니까? Spark 2.1에서 DataFrames에 대한 검사 점이 있다는 것을 알았지 만 R에서 얻을 수있는 것 같지 않습니다.
감사합니다. 각 루프마다 다른 파일을 사용합니다. 같은 파일로 이전에 시도 했으므로 작동하지 않았습니다. 그것이 나를 위해 작동한다면 나는 당신의 대답을 시험하고 받아 들일 것입니다. –
지금은 작동하고있는 것 같습니다 :-) 다른 병목 현상이 발생하더라도 :- ( –
새 질문에 대한 첫 번째 질문이나 링크를 편집 할 수 있습니다 – glefait