Spark 1.6.1과 Scala 2.10을 사용하여 Scala로 작성된 GraphX를 통해 데이터 세트를 조인하고 연결하는 코드를 작성했습니다.Spark GraphX spark-shell과 spark-submit 성능 차이점
스파크 셸에서이 코드를 실행하면 실행자 10 명, 실행자 10 명, 메모리 10g으로 완료됩니다. & 실행 프로그램 당 5 cpu.
spark-submit을 사용하여 fat jar에서 실행하면 프로세스가 메모리 부족 오류로 넘어져 그 지점에 도달하는 데 1 시간 30 분이 걸립니다.
아무도 아이디어의 원인이 될 수 있습니까?
누군가가 셸에서 SparkContext 및 SQLContext를 설정하는 방법을 알고 있으며 spark-submit 실행 문제가 너무 심하게 발생할 수있는 자체 Context를 설정하는 데 빠진 항목이 있다면 알려주십시오.
우리는 설정이 동일하다는 것을 확인했습니다. 그리고 spark-submit보다 많은 리소스를 쉘에 제공하더라도 문제가 계속 발생합니다. 또한 데이터가 왜곡 된 경우 쉘에 영향을 미치고 같은 방식으로 제출해야합니다. –
@AndyLong Spark Web UI에서 매개 변수 값을 확인할 수 있습니까? –
일부 설정이 무시되어 웹 UI에서 정보를 확인하려고합니다. –