Spark 2.1.0 독립 실행 형 클러스터에서 실행되는 스칼라 2.11에서 스파크 애플리케이션을 작성했습니다. 디자인/요구 사항에 따라 우리는 100과 같은 많은 수의 직접 열이있는 행 개체를 만들었으며 중첩 된 열 중 일부는 시퀀스가 20k에서 30k까지있는 것처럼 중첩 된 열이 거의 없습니다. Spark 데이터 세트를 처리하기위한 대소 문자 클래스도 있습니다. 예를 들어Apache Spark 2.1 - 행 객체의 스칼라 길이/무거운 속성
서열 중 일부는 30K에 20K의 크기를 가지고있다
Row(column_01,
column_02...
.....column_150,
column_151 = Seq,
column_152 = Seq...column_160 = Seq)
.
행 개체의 길이가 길거나 많은 특성이 성능에 어떤 영향을 미치는지 조금 걱정이됩니까? 성능 향상을 위해 코드에서 수행 할 수있는 최적화는 무엇입니까? 클러스터 튜닝을위한 제안 사항이 있습니까?
우리는 이미 다음과 같은 최적화에 노력하고 있습니다 -
- 는