0
jar 파일로 spark-submit하여 원사 클러스터 모드로 작업을 배포합니다. '동일한 jar 파일'을 제출할 때마다 작업이 배치되지만 제출 될 때마다 hadoop에 업로드됩니다. 매번 같은 항아리를 업로드하는 것은 불필요한 일이라고 생각합니다. 한 번 업로드하고 항아리로 원사 작업을 수행 할 수있는 방법이 있습니까?Spark-submit과 함께 동일한 jar 사용
jar 파일로 spark-submit하여 원사 클러스터 모드로 작업을 배포합니다. '동일한 jar 파일'을 제출할 때마다 작업이 배치되지만 제출 될 때마다 hadoop에 업로드됩니다. 매번 같은 항아리를 업로드하는 것은 불필요한 일이라고 생각합니다. 한 번 업로드하고 항아리로 원사 작업을 수행 할 수있는 방법이 있습니까?Spark-submit과 함께 동일한 jar 사용
스파크 항아리를 hdfs에 넣은 다음 --master yarn-cluster 모드를 사용하면 jar를 업로드 할 때마다 매번 hdfs에 필요한 시간을 절약 할 수 있습니다.
다른 대안은 다음과 같은 단점이 있습니다 모든 노드에 스파크 클래스 패스에 항아리를 넣어 :
hdfs에 어떤 pwd가 적용 되나요? –
사용자가 (스파크 작업을 실행하는) 사용자가 읽기 권한을 가진 위치에 보관하십시오. –
다른 구성이 필요하지 않습니까? hdfs에 파일을 놓고 app 리소스 경로를 설정하지 않았을 때 오류가 발생합니다. –