2013-05-09 1 views
2

최근에 나는 책을 읽고 있었다. hadoop : 그 부분이 두 클러스터 인 명확한 가이드는 distcp을 사용하여 데이터를 복사한다. 나는 "데이터 크기가 매우 클 때지도의 수를 제한해야한다. 대역폭과 클러스터 활용을 제한하기 위해 "왜 맵 수가 증가하면 hadoop의 대역폭과 클러스터 활용도가 영향을 받습니까?

나는 그 의미를 알 수 없다? 우리는 클러스터의 효율성을 높이기 위해 대역폭을 최대한 넓혀야한다고 생각합니다. 그렇다면 왜지도의 수를 제한해야합니까?

답변

1

물론 더 많은 정보가 없습니다. 의 매퍼는 더 높은 병렬 처리를 달성하는 데 도움이되지만 너무 높으면 병목 현상이되기 시작합니다. 예를 들어, 매퍼가없는 경우 대부분의 매퍼는 대기 상태가됩니다. 마찬가지로 메모리가 부족하여 네트워크 정체가 발생할 수 있습니다. 또한 많은 InputSplits를 만들고 많은지도를 만드는 데 더 많은 시간이 걸릴 것입니다. 따라서 매퍼의 수는 상당히 높아야합니다. 너무 높지 않고 너무 낮지도 않습니다. 사실 프레임 워크는 일반적인 상황에서 당신을 위해 그렇게하므로 걱정할 필요가 없습니다. 그러나 때로는 요구 사항에 따라 스스로 할 수도 있지만 위의 내용을 염두에 두어야합니다.

HTH

관련 문제