2011-12-13 4 views
4

Amazon EC2 클러스터에서 hadoop mapreduce 작업을 실행해야합니다.Amazon EC2에서 실행중인 hadoop 작업 : 다중 노드 클러스터

기존 AMI를 사용하여 설정을 시도했습니다. 그러나 마스터와 클라이언트를 시작한 후에 "jps"는 노드를 나열하지 않습니다.

심지어 공개 hadoop AMI를 사용한 후에도 주인과 노예를위한 hadoop 설정을해야합니까? 마스터는 노예의 IP 주소를 어떻게 알 수 있습니까 ??

누구든지 나를 좋은 문서로 안내 할 수 있습니까? 저는 12 시간 이상 머리를 숙이고 있습니다.

아무도 도와 줄 수 있습니까?

감사합니다.

답변

1

대신 Amazon의 Elastic MapReduce 프레임 워크를 사용합니다. 기계 & 클러스터를 동적으로 위아래로 회전시킬 수 있으며 서로 이야기하기 위해 구성 할 필요가 없습니다.

http://aws.amazon.com/elasticmapreduce/

는 그것은 많은 사람들이 사용하고, 대부분 신뢰할 수의입니다. 클러스터 설정 및 관리에 일반적으로 소요되는 작업의 절대적인 비용을 절감 해줍니다. 한 가지 사실은 일반 HDFS와 다릅니다. HDFS 대신 S3에 물건을 넣는 것이 가장 좋습니다 (클러스터가 일시적이므로 클러스터에서 HDFS 데이터가 사라짐).

+0

좋은 답변입니다. 탄성 MR은 ec2 클러스터에서 자기 자신을 설정하는 것보다 약간 더 비쌉니다. 이는 클러스터가 충분히 크면 더할 수 있습니다. – Lostsoul

+2

스팟 인스턴스를 사용하지 않는 경우에만 해당됩니다. 프로 팁 : 노드의 1/2을 현업 가격의 TASK 노드로 만들면 많은 비용을 절약 할 수 있습니다. –

+0

나는 그것을 결코 알지 못했다. .. 매튜 감사합니다. 너 나 동전 좀 구해 줬어! – Lostsoul

2

Matthew가 제안한 또 다른 대안은 Whirr을 사용하는 것입니다.

Whirr을 사용하면 아마존에서 Hadoop 클러스터를 쉽게 전개 할 수 있으며지도 제작 인스테리아에 대해 비용을 지불 할 필요가 없습니다. 또한 클러스터 버전을 제어 할 수 있습니다. 여기 http://whirr.apache.org/

을 하둡 설치를위한 빠른 시작 가이드 :

다음은 프로젝트 홈페이지이다. 실행중인 Hadoop 클러스터에는 5 분이 걸립니다. http://whirr.apache.org/docs/0.6.0/quick-start-guide.html

+1

좋은 연결 고리. Whirr은 지난 12 개월 동안 실행 가능한 대안으로 바뀌 었습니다. –

관련 문제