2012-01-31 6 views
6

내 직업에 정렬이 필요하지 않으며 키당 집계 정보 만 필요합니다. 그래서 나는 성능 향상의 순서로 모든 정보의 분류를 불가능하게하는 것이 가능하다고 생각한다.hadoop에서 정렬을 사용 중지 할 수 있습니까?


참고 : 많은 매퍼간에 데이터를 집계해야하기 때문에 감속기 수를 0으로 설정할 수 없습니다. 나는 단지 하나의 감속기를 소팅 한 결과에 관심이 없다.

+0

AFAIK, 정렬은 MR 작업의 필수 단계이므로 생략 할 수 없습니다. 정렬은 대개 성능 오버 헤드의 중요한 요소가 아닙니다. – wlk

+0

yura, 해결 방법을 찾았습니까? 나는 다른 사람의 질문에 실제로 대답이 있기 때문에, 속는 사람으로 끝내기 위해 투표하고 있습니다! – gsamaras

+0

가능한 [Hadoop and Python : Disable Sorting] 복제본 (http://stackoverflow.com/questions/19188263/hadoop-and-python-disable-sorting) – gsamaras

답변

0

맵 출력을 정렬하는 주요 목적 중 하나는 튜플이 감속기에 도달하면 감속기가 감속기 태스크를 호출하고 정렬 된 맵 출력리스트로 순차 스캔만으로 목록을 만들 수 있다는 것입니다 다른 키를보고 새 목록 만들기)지도 출력이 정렬되지 않으면 전체 목록을 스캔하여 동일한 키가있는 목록을 구성해야합니다.

관련 문제