2012-09-12 4 views
2

내가 hadoop 멀티 노드 클러스터를 설치 한 후에 나는 유명한 단어 카운트 맵 축소 예제를 실행했다. 그러나 나는 결과를 얻지 못했지만 그 일을 멈추게했다. 여기 내가 무엇을 얻을 수 있습니까?아파치 hadoop지도 작업 동결을 줄이기

12/09/12 13:01:29 INFO input.FileInputFormat: Total input paths to process : 3 
12/09/12 13:01:29 INFO util.NativeCodeLoader: Loaded the native-hadoop library 
12/09/12 13:01:29 WARN snappy.LoadSnappy: Snappy native library not loaded 
12/09/12 13:01:30 INFO mapred.JobClient: Running job: job_201209121300_0002 
12/09/12 13:01:31 INFO mapred.JobClient: map 0% reduce 0% 
12/09/12 13:01:45 INFO mapred.JobClient: map 33% reduce 0% 
12/09/12 13:01:48 INFO mapred.JobClient: map 100% reduce 0% 
12/09/12 13:01:54 INFO mapred.JobClient: map 100% reduce 11% 

그러나 마스터 및 슬레이브의 로그에는 예외가 없습니다. 그러나 노예에서는 작업 추적기가 계속해서 로그를 인쇄합니다.

2012-09-12 13:23:14,573 INFO org.apache.hadoop.mapred.TaskTracker:  attempt_201209121300_0002_r_000000_0 0.11111112% reduce > copy (1 of 3 at 0.04 MB/s) > 

이전에 hadoop 단일 노드를 구성하기 전에 위의 작업을 실행하면 성공적인 결과를 얻을 수 있습니다.

p.s : 1. 두 노드가 있으며 마스터와 슬레이브로 작동합니다. 두 IP 주소는 두 노드의/etc/hosts에 있습니다.
2. 암호없이 각 마스터 및 슬레이브로 ssh를 실행할 수 있습니다. (암호없는 로그인)
3. 마스터에서 start-dfs.sh를 실행 한 후 슬레이브 컴퓨터에서도 실행됩니다 (jps로 확인)
4. 다음은 내가 따르는 자습서입니다. http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/
5. 방화벽에서 두 컴퓨터를 모두 사용할 수 없습니다.

이 문제를 어떻게 해결할 수 있습니까?

+0

비슷한 게시물 : http://stackoverflow.com/questions/10165549/hadoop-wordcount-example-stuck-at-map-100-reduce-0 –

+0

이 도움이 될 수 있습니다. http://stackoverflow.com/questions/32511280/hadoop-1-2-1-multinode-cluster-reducer-phase-hangs-for-wordcount-program/32551259 # 32551259 –

답변

2

나는 mapred.reduce.slowstart.completed.maps 속성으로 노는 것을 고려할 것입니다. 기본적으로 5 %으로 설정되어 있으므로 매퍼 작업의 5 %가 완료되면 셔플이 시작됩니다. 귀하의 매퍼 은 끝내야 만으로 보이지만 진행률 표시 줄이 100 %로 표시 되더라도 마지막 매퍼가 어떻게 든 멈추는 경우가 있습니다. 이 경우 셔플은 마지막 맵 완성을 기다리고 있기 때문에 중단됩니다.

이 외에도 mapred.reduce.parallel.copies (셔플시 병렬 복사 스레드 수)을 변경하여 HW에 더 잘 맞는지 확인할 수 있습니다.

4

마침내 만들었습니다. 나는 내가 한 일을 여기에있다. 지도 축소 작업을 실행할 때 잘못된 로그를 확인했습니다. 모든 작업 hadoop은 logs/userlogs/job_id/*에있는 작업 로그를 생성합니다. 그래서 이러한 로그를 검사 할 때 UnknownHostException으로 알려지는 예외를 마침내 볼 수 있습니다. 그래서 나는 내 문제를 발견했다. 내 마스터/etc/host에 ipadress를 사용하여 슬레이브 컴퓨터 이름을 추가하고 hadoop 맵 재시작 작업을 다시 시작하십시오.
우리는 UI
에서 위의 작업 로그를 확인하실 수 있습니다 1.first 고토 jobtracker.jsp
2.Click 3.You는 지금 실행중인 것을 보거나지도를 클릭하거나 줄이고 로그를 확인할 수 있습니다
작업.

관련 문제