2013-03-17 1 views
1

작업 추적기가 만드는 매퍼의 수를 계산하는 것은 간단합니다. 기본적으로 hdfs 파일의 크기를 분할 크기로 나눈 것입니다. 따라서 hdfs 파일의 크기가 640MB이고 분할이 64MB이면 작업 추적기가 10 개의 매퍼를 생성합니다. 그러나 때로는 생성 된 매퍼의 수가 기대했던 것보다 많습니다. 내가 만든 매퍼의 수를 이해하기 위해 작업이 완료되면 화면의 인화를 봅니다.hadoop에서 생성 된 매퍼의 수

제 질문은 다음과 같습니다. 더 많은 매퍼가 만들어 졌는지, 어쩌면 다른 로그를보고 이해할 수 있습니까?

참고 : 맵 축소 작업이 있고 다른 시간에 실행될 때 같은 작업이 differnet 매퍼를보고합니다. 생성 된 추가 매퍼가 큰 것은 아니지만.

+1

입력 형식은 무엇이며 파일 압축은 무엇이 있습니까? 매퍼 수가 변동하는 각 실행 사이의 파일 수는 일정합니다 (기본적으로 매퍼의 가변 개수가 표시되지 않아야 함). –

+1

입력 형식이 텍스트이며 압축되지 않습니다. 거대한 하나의 파일이 있습니다. 내가 만든 최소 매퍼의 수는 파일 크기/입력 분할 크기와 같다고 생각했습니다. – 0xhacker

답변

1

작업 추적자에 의해 생성 된 로그를 읽은 후에 알아 낸 것은 이미 할당 된 매퍼가 오랜 시간 동안 걸리는 경우에 발생하는 여분의 매퍼입니다.

등의 작업을 할당 할 때 하둡, 그것은 다음과 같이 작업을 수행합니다이 작업 추적기 이제 5지도 작업에 대한 작업 2에 대한 1 차 작업 시도를 할당하려고하는 것을 의미한다

attempt_200707121733_0002_m_000005_1. 작업 시도는 0부터 시작합니다.

+0

이것을 투기 실행이라고합니다. 자세한 내용 [여기] (http://adhoop.wordpress.com/2012/02/24/speculative-execution-in-hadoop/) 및 [여기] (https://www.inkling.com/read/hadoop- 최종 가이드 - 톰 - 화이트 - 3/6 장/작업 실행). –

관련 문제