2014-06-12 4 views
0

두 노드 Hadoop 2.2.0 클러스터에서 실행중인 M/R 작업에 대해 몇 가지 테스트를하고 있습니다. 내가 이해하고 싶은 한 가지 점은 로컬 모드에서 작업을 실행 (ResourceManager에서 관리하지 않음)하고 YARN에서 실행한다는 성능 고려 사항입니다. 테스트는 YARN이 관리하는 것보다 LocalJobRunner를 통해 작업이 실행될 때 훨씬 빠르게 실행되는 것으로 나타났습니다. 클러스터를 설정할 때 여기 http://raseshmori.wordpress.com/2012/10/14/install-hadoop-nextgen-yarn-multi-node-cluster/에 설명 된 단계를 수행 중이 었는데, 안내서에 언급하지 않은 구성이있을 수 있습니까?Hadoop YARN - LocalJobRunner 대 클러스터 배포 작업

감사합니다.

답변

0

LocalJobRunner를 테스트하고 작은 예제를 실행합니다. 처음에는 Hadoop ("빅 데이터")을 사용하는 것을 정당화 할 수있는 데이터 양을 처리해야 할 때 클러스터를 사용할 것입니다. 당신이 작은 예제를 실행하면

분산 가지를 실행의 오버 헤드는

0

아르 논이 옳다 병렬화의 이점을 압도한다. LocalJobRunner를 사용하여 실행하는 것이 원사를 사용하는 것보다 훨씬 빠르다는 것을 알게되었습니다. LocalJobRunner를 사용하여 실행하면 맵 프로세스가 in-process 및 로컬 시스템으로 실행됩니다. 작업이 HDFS 클러스터에 제출되지 않았습니다. 따라서 맵 작업은 여러 컴퓨터에서 예약되지 않습니다. 따라서 LocalJobRunner는 코드를 테스트하는 단위로 사용됩니다. 그게 전부 야. 다른 모든 실질적인 목적을 위해 원사를 사용하십시오.

관련 문제