Q

스파크가 데이터 집합을 다시 계산하지 않도록하려면 어떻게해야합니까?

2017-10-18 1 views -1 likes

-1

나는 스파크의 카산드라에서로드 된 데이터 세트를 가지고 있습니다. 이 데이터 세트를로드 한 후에는 cassandra에서 일부 항목을 제거 하겠지만 다음 계산을 위해 먼저 내 데이터 집합을 원합니다. 나는 그것을 해결하기 위해 persist(DISK_ONLY)을 사용했지만, 최선의 노력으로 보인다. spark에서 강제로 다시 계산하지 않도록 할 수 있습니까?스파크가 데이터 집합을 다시 계산하지 않도록하려면 어떻게해야합니까?

예 :

val dataset:Dataset[Int] = ??? // something from cassandra 
dataset.persist(StorageLevel.DISK_ONLY) // it's best effort 
dataset.count // = 2n 
dataset.persist(_ % 2 == 0).remove // remove from cassandra 
data.count // = n => I need orginal dataset here

2017-10-18 Moein Hosseini

+0

@mrsrinivas 스파크 캐시와 지속성이 최적화 방법 :

요 난 강력 적어도 분산 파일 시스템처럼 영구 저장에 중간 데이터를 작성하고, 그것을 다시 읽어 보시기 바랍니다 것이다 정확성 을 보장합니다. 그 (것)들에 아무 보증도 없다. –

+0

동의합니다. DAG가 해당 단계를 건너 뛸 것임을 언급하지 않았습니다. 그러나 ** RDD는 모든 단계에서 rdd가 지속되는 경우 호출 될 때마다 다시 계산되지 않습니다. – mrsrinivas

A
답변

2

스파크 cache이 방법을 사용할 수 없습니다. 최적화이며 가장 보수적 인 사람도 StorageLevels (DISK_ONLY_2) 일지라도 작업자가 실패하거나 폐로하는 경우 데이터가 손실되고 다시 계산 될 수 있습니다.

Checkpoint 신뢰할 수있는 파일 시스템이 더 나은 옵션 일 수 있지만 일부 데이터가 손실 될 수있는 경계 케이스가있을 수 있습니다.

dataset.write.format(...).save("persisted/location") ... // Remove data from the source spark.read.format(...).load("persisted/location") //reading the same again

출처

2017-10-18 13:44:25 user6910411

관련 문제

1. 끝날 때마다 값을 다시 계산하지 않으려면 어떻게해야합니까?

2. 스파크가 데이터 셔플을 처리합니까?

3. 스파크가 데이터 집합에

4. 스파크가 데이터 얼룩을 보장합니까?

5. PHPExcel을 다시 계산하지 않습니다

6. 다시 계산하지 않고 분수를 갱신하십시오.

7. 페이지가 다시 제출되지 않도록하려면 어떻게해야합니까? Grails의에서 2.2.0

8. AVAudioPlayer가 데이터 끝나기 전에 반복되지 않도록하려면 어떻게해야합니까?

9. 드라이버를 다시 시작한 후 DAG가 다시 계산되지 않도록하려면 어떻게해야합니까?

10. "개체"데이터 원본에서 데이터 집합을 채우려면 어떻게해야합니까?

11. 스파크가 RDD를 다시 계산하는 이유는 무엇입니까?

12. 요소를 대체하여 데이터 집합을 다시 포맷하십시오.

13. 스파크가 UDF는

14. 쓰기 및 다시 읽을 때 스파크가 누락 됨

15. MDB에서 데이터가 마이그레이션되지 않도록하려면 어떻게해야합니까?

16. 배열이 충돌하지 않도록하려면 어떻게해야합니까?

17. 페이지가 만료되지 않도록하려면 어떻게해야합니까?

18. 필터를 구분하지 않도록하려면 어떻게해야합니까?

19. div가 겹치지 않도록하려면 어떻게해야합니까?

20. NSSearchField가 얼지 않도록하려면 어떻게해야합니까?

21. ObjectID가 프리미티브가되지 않도록하려면 어떻게해야합니까?

22. Order_ID가 반복되지 않도록하려면 어떻게해야합니까?

23. div가 사라지지 않도록하려면 어떻게해야합니까?

24. 서블릿의 결과가 캐싱되지 않도록하려면 어떻게해야합니까?

25. IQueryable의 데이터로 데이터 집합을 채우려면 어떻게해야합니까?

26. 지도에서 위도/경도 데이터 집합을 시각화하려면 어떻게해야합니까?

27. RDL 파일에서 데이터 집합을 채우려면 어떻게해야합니까?

28. 시작할 때 explorer.exe가로드되지 않도록하려면 어떻게해야합니까?

29. 오리엔테이션 변경 중에 활동이 다시 시작되지 않도록하려면 어떻게해야합니까?

30. 사용자가 편집 후 동일한 정보를 다시 입력하지 않도록하려면 어떻게해야합니까?

최근 질문

1. 4 번째 자리 이후에 숫자를 복제하는 3 자리 이상이있는 줄을 출력하도록합니다.

2. mysql에서 클래스 카트 어레이 값을 codegniter에 저장하는 방법은 무엇입니까? 방법 <code>codegniter</code>에 <code>mysql</code> 이러한 배열의 값을 저장하고, 배열

3. [admin-on-rest] [aor-graqhql]을 사용하는 사용자 정의 테마

4. JS : 예기치 않은 스크립트 끝

5. fontawesome 아이콘 근처에서 텍스트를 어떻게 배치 할 수 있습니까?

6. 젠킨스 파일에 설정된 환경을 얻는 방법

7. 레일 사용자 정의 금액으로 스트라이프 체크 아웃

8. Semantic UI React에서 드롭 다운 항목을 클릭 할 때 모달을 트리거하는 방법은 무엇입니까?

9. Xcode 9.2 (9C40b) iOS 프로젝트의 ViewController로 참조 객체 드래그

10. AEM의 동적 미디어 및 장면 7 통합

관련 문제

1. 끝날 때마다 값을 다시 계산하지 않으려면 어떻게해야합니까?

2. 스파크가 데이터 셔플을 처리합니까?

3. 스파크가 데이터 집합에

4. 스파크가 데이터 얼룩을 보장합니까?

5. PHPExcel을 다시 계산하지 않습니다

6. 다시 계산하지 않고 분수를 갱신하십시오.

7. 페이지가 다시 제출되지 않도록하려면 어떻게해야합니까? Grails의에서 2.2.0

8. AVAudioPlayer가 데이터 끝나기 전에 반복되지 않도록하려면 어떻게해야합니까?

9. 드라이버를 다시 시작한 후 DAG가 다시 계산되지 않도록하려면 어떻게해야합니까?

10. "개체"데이터 원본에서 데이터 집합을 채우려면 어떻게해야합니까?

문의하기

© 2020 KO.VOIDCC.COM

沪ICP备13005482号-13

简体中文

繁體中文

Русский

Deutsch

Español

हिन्दी

Italiano

日本語

한국어

Polski

Türkçe

Tiếng Việt

Française