2011-01-31 8 views
2

흥미 롭습니다 - 노드 당 hadoop 경량 텍스트 데이터 처리를 위해 좋은 처리량 인 으로 간주 될 수있는 것은 무엇입니까?
더 구체적으로 나는 물을 것이다 : 하자 내가 csv 파일을 읽고, 구문 분석하고 일부 열의 특정 값의 개수를 계산한다고 해봅시다. 값이 희박하여 축소 단계가 빠르다고 가정합니다.
현대 쿼드 코어 CPU/4GB RAM/4 SATA 디스크 머신에서 hadoop 노드 당 예상되는 처리량은 어느 정도입니까?Hadoop MapReduce 처리량 질문

+0

정확한 구현으로 데이터 소스와 구성이 결과에 막대한 영향을 미칠 것으로 예상되는만큼 거의 대답 할 수 없다고 생각합니다. –

+1

정확한 답변이 아닙니다. 그러나 최소한 규모의 순서를 알아야합니다 (IMHO). RDBMS 기반 솔루션의 경우 TPCH Q1 (예 :)을 사용하고 throupput을 볼 수 있습니다. 이해하고 싶습니다. 1MB/초, 10MB/초, 100MB 또는 300MB/초입니까? 솔루션을 계획하고 고객이 구매해야하는 기계의 수를 알아야 할 때를 아는 것이 중요합니다. –

+0

@David Gruzman : 'grunty'PC에서 왜 테스트하지 않습니까? –

답변

1

저는이 질문이 합리적이라고 생각합니다. 나는 하둡 클러스터의 인상은 3800 개 노드 상용 하드웨어와 에서 실행되는 yahoo PB-Sort를 들어

(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks 

과 처리량 얻을 (노드 당 2 개 디스크), 간단한 표현으로 평가하는 : 2.24 MB/(들 및 디스크).

IO 바운드 작업 (DFSIO 테스트 검색)의 경우 약 20MB/(s 및 디스크)의 클러스터를 찾을 수 있습니다.

현재 IH 바인딩 작업에 20MB/(s 및 디스크)가 넘는 범용 하드웨어가있는 hadoop 클러스터를 찾을 수 없을 것입니다. 그러나 나는 틀릴 수도 있습니다.

+0

디스크 처리량의 2/3이 어디로가는 지 흥미 롭습니다. –

+0

클러스터 뒤의 수학에 대한 좋은 기사 : http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje

관련 문제