Amazon EC2 m1.small 인스턴스에서 MapReduce 단어 계산 예제를 테스트 중입니다. 아마존 명령 행 시작 안내서를 따라 왔습니다.Hadoop on EC2 : 슬레이브 수를 늘릴 때 성능이 향상되지 않습니다.
함이 명령을 사용하여/ec2hadoop 출시 클러스터 테스트 2
나는 2 개 슬레이브 노드가있다. (총 3 개의 인스턴스가 실행 중임) 그러면 master 노드에 로그인하여 hadoop 프로그램 (jar 파일에 번들로 묶음)을 실행할 수 있습니다. 35 분이 걸렸습니다.
는 확장 성 실험을 위해, 나는 4 개 인스턴스 놀랍게도빈/ec2hadoop 출시 클러스터 테스트 4
를 사용하여 동일한 프로그램을 실행, 나는 성능에 어떤 이득을 보지 않았다. MapReduce 응용 프로그램은 거의 동일한 시간 (33 분)이 걸렸습니다.
어디에 문제가 있습니까? 허용되는 동작입니까?
In mapred-site.xml
mapred.tasktracker.map.tasks.maximum is set to 1
mapred.tasktracker.reduce.tasks.maximum is set to 1
모든 의견을 환영합니다.
몇 개의 입력 파일과 크기가 있습니까? tasktracker web ui의 컴퓨터로 작업 배포를 검토 했습니까? 지도 작업이 모든 노드에서 실행 되었습니까? 아니면 단일 노드에서 실행 되었습니까? – harpun
s3n textData 파일의 입력 파일 10.내가 기계에 작업의 분포를 확인하지 못했 .. 어떻게 그 tasktracker 웹 UI를 확인하는 방법을 모르겠다 .. 어떻게 할 검색 할 것인가? 또한 Hadoop 프레임 워크는 * map * 작업을 위해 모든 슬레이브를 사용하지만지도 작업이 모든 노드 또는 단일 노드에서 실행되는지 여부를 확신하지 못한다고 가정합니다. – Trojosh
미안하지만, 저는 Jobtracker 웹 UI를 의미했습니다. 일반적으로 'http : // : 50030 /'UI에서 완료된 작업에 대한 다양한 세부 정보를 확인할 수 있습니다. 일부 포인터에 대해서는 [Hadoop 모니터링] (http://docs.hortonworks.com/CURRENT/index.htm#Monitoring_HDP/Understanding_Monitoring_For_Hadoop/Key_Information_Resources_For_Monitoring_Hadoop.htm)을 참조하십시오. –
harpun