2011-02-22 2 views
1

Hadoop에서 연구/구현 기반 프로젝트를 찾고 있는데 위키 페이지 (http://wiki.apache.org/hadoop/ProjectSuggestions)에 게시 된 목록을 발견했습니다. 그러나이 페이지는 2009 년 9 월에 마지막으로 업데이트되었습니다. 따라서 이러한 아이디어 중 일부가 이미 구현되었는지 확실하지 않습니다. 저는 "MR 프레임 워크의 정렬 및 셔플 최적화"에 관심이있었습니다. "셔플 이전에 랙 또는 노드에서 여러 맵의 결과를 결합하여 검색 작업 및 중간 저장 공간을 줄일 수 있습니다."Hadoop MapReduce에서 정렬 및 셔플 최적화

누구나 전에 사용해 보았습니까? 이것이 Hadoop의 최신 버전에서 구현 되었습니까?

답변

1

프로젝트 설명은 "최적화"를 목표로합니다. 이 기능은 현재 Hadoop-MapReduce에 이미 존재하며 더 적은 시간 내에 실행할 수 있습니다. 나에게 가치있는 향상을 가져다줍니다.

2

더 복잡한 메모리 내 셔플 인 결합 기능 (http://wiki.apache.org/hadoop/HadoopMapReduce의 "결합"섹션에서 설명)이 있습니다. 하지만 나는 결합자가 하나의지도 작업에 대해 키 - 값 쌍을 집계한다고 생각합니다. 주어진 노드 또는 랙에 대한 모든 쌍을 집계하는 것이 아닙니다.

1

매우 어려운 과제라고 생각합니다. 내 이해에서 생각은 "평면"map-reduce 대신 계산 트리를 만드는 것입니다. 그 좋은 예는 Google의 Dremel 엔진 (현재 BigQuey라고 함)입니다. 이 신문을 읽으시 길 바랍니다. http://sergey.melnix.com/pub/melnik_VLDB10.pdf
이런 종류의 아키텍처에 흥미가 있다면 -이 기술의 오픈 소스 클론 인 Open Dremel을 살펴볼 수도 있습니다. http://code.google.com/p/dremel/