2016-06-06 3 views
4

Spark EMR 클러스터를 만들었습니다. 로컬 호스트 또는 EMR 클러스터에서 작업을 실행하고 싶습니다.로컬에서 실행되는 Spark Shell에서 Spark EMR에 연결하는 방법

내 로컬 컴퓨터에서 spark-shell을 실행한다고 가정 할 때 Spark EMR 클러스터에 연결하는 방법을 알려면 정확한 구성 옵션 및/또는 실행 명령이 무엇인지 알아야합니다.

+0

EMR 클러스터로 ssh하고 스파크 코드를 제출해야합니다. – WoodChopper

+0

@WoodChopper, 감사합니다. 나는 EMR 클러스터로 ssh 할 수 있고 문제없이 거기에서 코드를 제출할 수있다. localhost Spark 쉘에서 원격 EMR 클러스터로 직접 코드를 제출할 수 있는지 궁금합니다. – Datageek

+1

로컬 머신이 클러스터의 마스터 노드가 아니면 그렇게 할 수 없다고 생각합니다. EMR의 경우에는 분명히 아닙니다. – WoodChopper

답변

0

다른 사람들도 이것에 실패하여 EMR에서 Spark 드라이버를 실행 한 것처럼 보이지만 예를 들어 다음을 사용합니다. Zeppelin 또는 Jupyter가 EMR에서 실행 중입니다.

EMR의 핵심 노드에 연결된 스파크 드라이버로 자체 시스템을 설정하는 것이 이상적이었습니다. 불행하게도, 이것은 불가능했으며 많은 구성 변경을 시도한 후에는 효력을 상실했습니다. 드라이버가 작동을 시작한 다음 노예에 연결을 시도하는 데 실패했습니다.

대부분의 Spark 개발은 Jupyter Notebook을 IDE로 사용하여 pyspark에 있습니다. Jupyter를 마스터 노드에서 실행해야했기 때문에 클러스터가 다운 될 경우 우리는 작업을 잃을 위험이 없습니다. 그래서 EBS 볼륨을 만들어 마스터 노드에 연결하고이 볼륨에 모든 작업을 배치했습니다. [...]

source

참고 :이 경로를 아래로 갈 경우에, 나는 노트북을 저장하기 위해 S3를 사용하는 것이 좋습니다 것입니다, 당신은 EBS 볼륨을 관리 할 필요가 없습니다.

관련 문제