2017-03-24 1 views
0

spark 클러스터에서 큰 파일을 처리 할 때 메모리가 부족합니다. 나는 힙 크기를 늘릴 수 있다는 것을 알고있다. 하지만 좀 더 일반적인 경우에는 생각하지 않는 것이 좋습니다. 큰 파일을 일괄 적으로 작은 파일로 분할하는 것이 궁금합니다. 좋은 선택입니다. 따라서 우리는 큰 파일 대신 작은 파일을 배치로 처리 할 수 ​​있습니다.spark에서 큰 파일을 실행하기위한 접근 방법

답변

0

OOM 문제가 발생했습니다. 스파크는 메모리를 계산할 때 메모리, 데이터, 중간 파일 등을 모두 메모리에 저장합니다. 캐시 또는 지속성이 도움이 될 것 같습니다. 저장소 수준을 설정할 수 있습니다. MEMORY_AND_DISK_SER와 같습니다.

+0

하지만 OOM도 있습니다. 다른 방법 중 하나는'spark.default.parallelism'을 사용하여 파티션 수를 늘리는 것입니다. – chatterboy

관련 문제