2013-12-18 1 views
1

Hadoop의 Terasort 구현에는 TeraScheduler라는 스케줄러가 있습니다.Hadoop의 Terasort 스케줄러

  1. 이 분할이 호스트
  2. 의 가장 작은 수의 호스트를 선택, 고정 된 호스트의 가장 작은 수의 분할의 수와 "핀을"선택 : 코드를 읽어 데, 스케줄러는 기본적으로는 다음과 같은 작업을 수행합니다 이 호스트에서 실행됩니다. "unchosen"스플릿은이 호스트에서 제거됩니다.
  3. 모든 호스트에 대해 반복하십시오.

이 일정 뒤에있는 이유에 대해 이해할 수 없습니다. 기본 스케줄러보다 성능이 어떻습니까 (어쨌든 기본 스케줄러는 무엇입니까?)? 그 혜택을 설명하는 논문이 있습니까?

답변

2

이점은 두 가지로 표시됩니다 : (1) 가능한 한 로컬 정렬을하십시오. (2) 컴퓨터에서 작업을 균등하게 배포하십시오.

두 가지 모두 성능을 향상시키는 데 목적이 있습니다.