2012-05-07 2 views
2

몽고 DB에 백만 곡의 레코드가 있고 각 레코드의 크기가 5KB라고하면됩니다. 이 데이터에 대해 Map-Reduce를 실행하고이 애플리케이션에 필요한 RAM을 예측하려고한다고 가정 해 보겠습니다. map-reduce 작업 중에는이 DB에 대한 읽기 또는 쓰기가 없습니다. map-reduce는 일부 레코드를 집계하고 집계 된 레코드의 논리적 비교를 수행합니다.작업 집합을 계산하는 절차는 무엇입니까?

map-reduce를 사용하여 데이터를 RAM으로 가져 오는 방법을 이해하고 작업 집합을 계산하는 방법을 알고 싶습니다 (예 : 1 MM x 5 KB가 내 작업 집합이라고 가정해야합니다).

답변

1

Map-Reduce 작업의 작업 세트는 map() 함수를 실행하는 전체 데이터 세트입니다. 예를 들어 데이터가 1M 개체이고 map() 함수가 모든 문서를 보면 작업 세트가 1M x 5K가됩니다. 데이터의 일부 하위 집합 (예 : 500K 개체)으로 map() 함수를 제공하는 경우 500K x 5K가됩니다. 두 경우 모두 사전 정의 된 인덱스의 크기도 포함시켜야합니다.

관련 문제