yarn 모드에서 스파크 제출을 사용하여 hadoop 클러스터에서 스파크 작업을 시작하려고합니다.스파크 제출 YARN 모드 HADOOP_CONF_DIR 내용
내 개발 컴퓨터에서 spark-submit을 시작합니다.
Running Spark On YARN 문서에 따르면, 나는 hadv 클러스터에 대한 경로를 env var HADOOP_CONF_DIR
또는 YARN_CONF_DIR
에 제공해야합니다. 작업이 원격 YARN 서비스로 전송되는 경우이 폴더가 로컬 컴퓨터에 있어야하는 이유는 무엇입니까? 이것은 불꽃 제출이 안에 있어야한다는 것을 의미합니까? 클러스터 안에 있기 때문에 원격으로 스파크 작업을 시작할 수 없습니까? 그렇지 않은 경우이 폴더를 어떻게 채워야합니까? 작업 관리자 서비스가있는 YARN 클러스터 노드에서 hadoop 구성 폴더를 복사해야합니까?
정말 고마워요. 나는이 문제에 대해 잠시 동안 머리를 감싸려고 노력했다. 문서는 충분히 명확하지만 몇 가지 유스 케이스가 있으며 몇 가지 사항이 섞여있다. 나는 좋은 요약을 정말로 필요로했다 :-) – NotGaeL
'mapred-site'는 Spark에 필요하다 ?? –
@ cricket_007 원칙적으로 그렇지 않습니다. 빨리 시험하고보고 할 것입니다. – Serhiy