2010-04-18 11 views
2

반복적 인 MapReduce를 사용한 병렬 계산은 주로 동일한 논리에 대해 학습 데이터 크기가 비 병렬 계산에 비해 너무 큰 경우에 정당화 될 수 있다고 말하는 것이 맞습니까?Hadoop : Iterative MapReduce 성능

MapReduce 작업을 시작하기위한 오버 헤드가 있음을 알고 있습니다. 많은 수의 반복이 필요한 경우 전체 실행 시간에 중요 할 수 있습니다.

순차적 계산은 메모리가 많은 경우에 데이터 세트를 보유 할 수있는 한 반복 MapReduce를 사용한 병렬 계산보다 빠릅니다.

답변

1

대부분의 경우 단일 시스템이 작업을 수행하는 경우 병렬 처리 시스템이 중요하지 않습니다. 대부분의 병렬 처리 작업과 관련된 복잡성은 중요하며이를 사용하기위한 좋은 이유가 필요합니다.

수용 가능한 시간에 병렬 처리없이 작업을 해결할 수 없다는 것이 명백한 경우에도 병렬 실행 프레임 워크는 낮은 수준의 과학 지향 도구 인 PVM or MPI에서부터 고급 수준의 특수화 된 도구 Hadoop과 같은 프레임 워크 (예 : map/reduce) 프레임 워크.

매개 변수 중 고려해야 할 것은 시작 시간과 확장 성 (선형에 가까운 시스템 배율)입니다. 신속한 답변이 필요하다면 Hadoop은 좋은 선택이 아니지만 map-reduce 프레임에 프로세스를 적용 할 수 있다면 좋은 선택 일 수 있습니다.

0

정확히이 문제를 해결하는 프로젝트 HaLoop (http://code.google.com/p/haloop)을 참조하십시오.

+3

@anuj 대담한 편집을위한 다양한 이유가 없습니다. 링크는 괜찮지 만 프로젝트에 올바른 대문자 철자를 지정하면 잘 할 수 있습니다. – Bart

+0

다시 시도하십시오. –

+0

@anujarora 편집 해 주셔서 감사합니다. – Khalefa

관련 문제