2010-02-10 2 views
4

이 질문에는 "올바른"답변이 하나도 없습니다.지도 테라 바이트 단위의 데이터로 알고리즘 맵 축소?

테라 바이트 급 데이터의 클러스터에서 Map Reduce 알고리즘을 실행하는 데 관심이 있습니다.

상기 알고리즘의 실행 시간에 대해 자세히 알고 싶습니다.

어떤 책을 읽어야합니까?

Map Reduce 클러스터를 설정하거나 표준 알고리즘을 실행하는 데 관심이 없습니다. 나는 엄격한 이론적 인 치료 또는 실행 시간을 원한다.

편집 : 문제는지도가 아닌 변경 실행 시간을 줄입니다. 문제는 대부분의 알고리즘이 맵 축소 프레임 워크에 잘 배포되지 않는다는 것입니다. 지도에서 실행되는 알고리즘에 관심이 있습니다.

답변

4

기술적으로 "표준"알고리즘과 비교하여 MapReduce의 런타임 분석에는 실제와 다른 점이 없습니다. MapReduce는 여전히 다른 어떤 알고리즘과 마찬가지로 알고리즘입니다. 이러한 단계 간의 상호 작용).

MapReduce 작업의 런타임은 여러 컴퓨터에서 작업 나누기를 고려한 다음 각 단계에 필요한 최대 개별 컴퓨터 시간을 찾을 때 일반적인 알고리즘 분석의 예측 방법을 계속 조정합니다.

즉 M 개의 맵 조작이 필요한 태스크가 있고 R이 조작을 줄이고 N 개의 기계에서 실행 중이며 평균 맵 조작에 m 시간이 소요되고 평균 조작이 r 시간이 소요될 것으로 예상되는 경우 문제의 모든 작업을 완료하는 데 걸리는 시간은 ceil(M/N)*m + ceil(R/N)*r입니다.

M, R, m 및 r에 대한 값 예측은 모두 MapReduce에 연결하는 알고리즘의 정상적인 분석으로 수행 할 수 있습니다.

1

내가 게시되는 알고 두 권의 책을이 있지만 더 많은 작품이 있습니다 :

Pro hadoop 이들의 Hadoop: The Definitive Guide

는, 프로 하둡는 동안, 초보자 책의 더 Definitive Guide는 Hadoop이 실제로 무엇인지 아는 사람들을위한 것입니다.

나는 확실한 안내서를 소유하고 있으며 훌륭한 책이라고 생각합니다. 그것은 MapReduce, Pig, Hive, HBase 등과 같은 관련 주제를 다루는 것뿐만 아니라 HDFS가 작동하는 방법에 대한 훌륭한 기술적 세부 사항을 제공합니다. 또한이 책은 Tom White가 좋은 발전을위한 하둡의 개발은 이제 cloudera에서 일합니다.

알고리즘 분석이 Hadoop에 관한 한 TeraByte 정렬 벤치 마크를 살펴볼 수 있습니다. Yahoo는 Hadoop이이 특정 벤치 마크에 대해 수행하는 작업에 대한 글을 작성했습니다 : TeraByte Sort on Apache Hadoop. 이 백서는 2008 년에 작성되었습니다.

2009 년 결과에 대한 자세한 내용은 here입니다.

0

MapReduce 모델에 적용된 데이터 마이닝 알고리즘에 대한 훌륭한 책이 있습니다.

는 그것은 무료로 두 스탠포드 교수에 의해 작성하고 가능한 경우 하였다

http://infolab.stanford.edu/~ullman/mmds.html