2012-06-21 2 views
2

M 코어 인스턴스와 N 개의 작업 인스턴스가있는 Amazon EMR 클러스터를 실행하고 있습니다.Amazon EMR : EMR 인스턴스 당 매퍼 및 리듀서의 고유 번호를 설정하십시오.

내 작업이 하루에 여러 번 실행되므로 시간이 중요하므로 M 코어 인스턴스를 24 시간 가동하여 S3에서 /로 데이터 전송 오버 헤드가 발생하지 않도록합니다.

N 개의 작업 노드가 필요에 따라 동적으로 시작되고 종료됩니다.

M 코어 노드는 c1.mediums이고 N 작업 노드는 m2.xlarge입니다.

인스턴스 당 mapred.tasktracker.map.tasks.maximum 및 mapred.tasktracker.reduce.tasks.maximum을 구성하는 방법이 있습니까? 핵심 노드

내가 원하는 : mapred.tasktracker.map.tasks.maximum = 2 mapred.tasktracker.reduce.tasks.maximum = 1

을 나는 적어도하려는 작업 노드의 경우 : 는 mapred .tasktracker.map.tasks.maximum = 2 mapred.tasktracker.reduce.tasks.maximum = 2

주 해당 작업 추적기뿐만 아니라 핵심 노드에서 실행, 그래서이 구성이 당에 있어야합니다 생각 인스턴스 크기에 따라 인스턴스 기반.

이것이 가능합니까? 그렇다면 어떻게 이런 유형의 설정을 할 수 있습니까? 감사.

답변

0

여기에 멋진 블로그가 있습니다. 답변을 제공합니다. http://blog.earlh.com/index.php/2013/05/modifying-the-number-of-mappers-or-reducers-on-a-running-emr-cluster/

작업 노드에 sshing을 사용하여 약간 놀아야 할 수도 있습니다. 그것은 그렇게 작동하지 않습니다.

필자의 pem 파일은 로컬 디렉토리에 저장됩니다. ".PEM과의의 다음 나머지는 -i SCP -l 하둡"블로그 마음에 언급 한 바와 같이

당신이 내가 시도하지 않은

후가하는 PEM 파일에

chmod를 400 그러나 아직 나는 그것이 효과가있을 것이라고 믿습니다. 또한 - 전환은 ... 필요하지 않을 수도 있습니다. 아마도 conf 만 필요할 것입니다.

감사합니다.

관련 문제