2017-05-15 1 views
0

jar 파일로 spark-submit하여 원사 클러스터 모드로 작업을 배포합니다. '동일한 jar 파일'을 제출할 때마다 작업이 배치되지만 제출 될 때마다 hadoop에 업로드됩니다. 매번 같은 항아리를 업로드하는 것은 불필요한 일이라고 생각합니다. 한 번 업로드하고 항아리로 원사 작업을 수행 할 수있는 방법이 있습니까?Spark-submit과 함께 동일한 jar 사용

답변

2

스파크 항아리를 hdfs에 넣은 다음 --master yarn-cluster 모드를 사용하면 jar를 업로드 할 때마다 매번 hdfs에 필요한 시간을 절약 할 수 있습니다.

다른 대안은 다음과 같은 단점이 있습니다 모든 노드에 스파크 클래스 패스에 항아리를 넣어 :

  1. 당신은 30 개 이상의 노드가있는 경우 각 노드에 항아리를 scp를 매우 지루한 것입니다.
  2. 클러스터 업그레이드가없고 새 spark 설치가있는 경우 재배포해야합니다.
+0

hdfs에 어떤 pwd가 적용 되나요? –

+0

사용자가 (스파크 작업을 실행하는) 사용자가 읽기 권한을 가진 위치에 보관하십시오. –

+0

다른 구성이 필요하지 않습니까? hdfs에 파일을 놓고 app 리소스 경로를 설정하지 않았을 때 오류가 발생합니다. –