2016-11-06 2 views
1

나는 내 응용 프로그램 내에서 atleast 4-5 번 읽는 쪽매 파일을 가지고 있습니다. 가장 효율적인 것이 무엇인지 궁금 해서요.캐싱 대 Tempview

옵션 1. 마루 파일을 쓰는 동안 데이터 세트 및 통화 캐시에서 다시 읽습니다. 나는 즉시 기존의 hdfs/spark 캐시를 write 프로세스의 일부로 사용할 수 있다고 가정하고있다.

옵션 2. 내 응용 프로그램에서 데이터 집합을 처음으로 필요로 할 때 그것을 읽은 후에 캐시하십시오.

옵션 3. 파르 케 파일 작성 중에 완료 후 임시 파일보기를 작성하십시오. 이후의 모든 사용에서는보기를 사용하십시오.

저는 tempview 대 쪽모 데이 세트의 읽기 효율에 대해서도 분명하지 않습니다.

데이터 세트가 메모리에 모두 들어 맞지는 않습니다.

답변

2

데이터 집합을 캐시해야합니다 (옵션 2).

  • 디스크에 쓰기는 인 메모리 형식
  • 임시 뷰를 캐시하지 스파크를 통해 더 향상된 기능을 제공하지 않습니다.
+0

답은 맞지만 성능 및 데이터 지역에 관한 메모도 추가 할 것입니다. 또한 다른 옵션이 더 나은 선택이 아닌 이유 :) – eliasah

+0

@eliasah 귀하의 의견을 이해할 수 없습니다. (데이터 지역이 여기에 영향을 미치는 이유는 무엇입니까? –

+1

데이터가 메모리에 맞지 않기 때문에 여기에 있습니다. 따라서 디스크에 저장해야 할 필요가 있습니다. 데이터 노드가 동일한 컴퓨팅 요구 사항에있는 경우 데이터는 실행 프로그램에 로컬이므로 캐싱 메커니즘을 사용하여 많은 개선이 이루어지지는 않을 것입니다. 그것 – eliasah