2015-01-17 4 views
2

100GB의 파일이 있다고 가정합니다. 그리고 내 시스템은 60GB입니다. 어떻게 아파치 스파크가이 데이터를 처리할까요? 우리 모두는 spark가 클러스터를 기반으로 자체적으로 파티션을 수행한다는 것을 알고 있습니다. 하지만 메모리가 줄어들면 스파크가 어떻게 처리하는지 알고 싶습니다.Apache spark- bigdata

+0

RAM이 60GB입니까? 일반적으로 스파크는 요청하지 않는 한 데이터 세트를 디스크에 저장하지 않습니다. –

+0

데이터 세트를 메모리에 영구 저장 하시겠습니까? :) – Bacon

답변

5

요컨대 : 스파크는 전체 데이터 세트를 한번에 메모리에 저장하지 않아도됩니다. 그러나 일부 작업에서는 데이터 집합의 전체 파티션을 메모리에 맞게 요구할 수 있습니다. 스파크를 사용하면 파티션 수 (결과적으로 파티션 수)를 제어 할 수 있습니다.

자세한 내용은 this 항목을 참조하십시오.

Java 객체는 일반적으로 원시 데이터보다 많은 공간을 차지하므로, this을보고 싶을 수도 있습니다.

Apache Spark : Memory management and Graceful degradation