2017-04-02 3 views
0

here 명령에 따라 성공적으로 클러스터를 설정했습니다. 이 클러스터 유형의 API를 통해 Spark를 호출 할 수 있습니까? 어디에서 Spark endpoint (s) detail을 찾으실 수 있습니까? 앞서 언급 한 튜토리얼이 막 다른 골목이라면 누구나 나를 올바른 방향으로 향하게 할 수 있을까?aws 클러스터가있는 스파크 사용

궁극적 인 POC 목표는 일부 S3 버킷의 플랫 파일 (예 : csv)에 2 개의 열을 추가하고 결과 값을 spark를 통해 세 번째 열과 비교하는 것입니다 (이것은 숙제가 아닙니다 (- :) - 이상적으로는 Mobius 나는 [전] .net dev)입니다.

답변

1

This reference은 필요한 정보를 제공해야합니다. 여기에 조각이다.

"아파치의 릴리스의 EC2 디렉토리로 이동 다운로드 한 스파크 <keypair> 당신의 EC2 키 쌍의 이름입니다 실행 ./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>, (당신이 그것을 만들 때 당신이 그것을 준) <key-file>이 키 쌍의 개인 키 파일, <num-slaves>는 슬레이브 노드의 수는 (처음에 일을하려고) 시작하고, <cluster-name>는 클러스터에 지정할 이름입니다 예를를 들어

:.

export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU 
export AWS_ACCESS_KEY_ID=ABCDEFG123456789

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster 

모든 것이 실행되면 클러스터 스케줄러가 작동 중인지 확인하고 스크립트의 끝에 인쇄 할 웹 UI로 이동하여 모든 슬레이브를 확인하십시오 (일반적으로 http://master-hostname:8080). "

+0

감사합니다. – cs0815