2013-03-13 3 views
0

저는 hadoop을 처음 사용합니다. 나는 가설에 대해 공부하고 질문했는지 확인하고 싶다.MR이 실행 중일 때 hadoop 맵이 분리됩니다.

이것은 생각입니다. 예를 들어, hadoop에 5 개의 노드, 1이 master이어야합니다. 각 슬레이브 노드에는 1 개의 MR 작업이 있습니다. conf/mapred-site.xml에 구성됩니다.

이것은 내가 hadoop 예제를 실행했다는 것을 연구했습니다. MR은지도 작업 번호를 단어 개수로 자동 결정합니다.

Q1. 블록 크기 옵션 또는 다른 것과 연결되어 있습니까?

속성에 따라 변경 될 수 있습니다. PI 및 무작위 텍스트 작성기를 실행할 때 변경되었습니다.

Q2. 다른 MR 프로그램을 변경할 수 있습니까? 내 말은, 단어 수에서 속성은지도 작업 번호에 영향을 미칩니다.

이것은 또 다른 아이디어입니다. 이 경우 4 개의 슬레이브와 2 개의 맵 작업이 있습니다. 즉, 한 번에 2 개의 노드를 실행할 수 있습니다.

가설입니다. JT는 2 회의지도 작업을하고 추정 시간이 1 시간 이상입니다. 성능이 좋지 않습니다. 2 개의 노드가 실행되고 있지 않습니다. 지도에 4 개의 노드를 사용하면 더 빠를 수 있습니다. 작업 실행시 기존 맵을 분리하고 싶습니다.

Q3. 이 가설의 가능성. 가능한 경우 참조를받는 방법을 알려주십시오.

귀하의 조언을 기다리고 있습니다.

감사합니다.

+0

보기 : http://yaseminavcular.blogspot.com/2011/06/how-to-set-number-of-maps-with-hadoop.html – Alper

답변

0

첫 번째 질문은 블록 크기 및 파일 수와 관련되어 있습니다. 예를 들어 3,7GB의 데이터가 있고 512MB의 데이터 크기를 갖는 경우 8 개의 맵 작업이 생성됩니다. 또한 입력 디렉토리의 파일 번호와 직접 관련이 있습니다. 디렉토리의 각 파일에 대해 최소한 하나의 맵 태스크가 작성됩니다. 또한지도 작업을 프로그래밍 방식으로 늘릴 수도 있습니다 (예, 감소 할 수 없음).

-1

답해 주셔서 감사합니다.

첫째, 필자는 파일 수를 고려하지 않았습니다. 사실 MR이 JVM에서 실행 중일 때 분할 맵에 대해 궁금합니다. 나는 약간의 정보를 찾으려고 노력했지만 아무 쓸모가 없었다.

이제는 MR에 대한 hadoop 구성, 특히 mapred-site.xml의 중요성에 대해 알고 있습니다. 설정에 대해 더 공부할 것입니다.

다시 한 번 감사드립니다.

관련 문제