흥미 롭습니다 - 노드 당 hadoop 경량 텍스트 데이터 처리를 위해 좋은 처리량 인 으로 간주 될 수있는 것은 무엇입니까?
더 구체적으로 나는 물을 것이다 : 하자 내가 csv 파일을 읽고, 구문 분석하고 일부 열의 특정 값의 개수를 계산한다고 해봅시다. 값이 희박하여 축소 단계가 빠르다고 가정합니다.
현대 쿼드 코어 CPU/4GB RAM/4 SATA 디스크 머신에서 hadoop 노드 당 예상되는 처리량은 어느 정도입니까?Hadoop MapReduce 처리량 질문
답변
저는이 질문이 합리적이라고 생각합니다. 나는 하둡 클러스터의 인상은 3800 개 노드 상용 하드웨어와 에서 실행되는 yahoo PB-Sort를 들어
(SizeOfInput + SizeOfOutput)/RuntimeInSeconds/NumberOfDisks
과 처리량 얻을 (노드 당 2 개 디스크), 간단한 표현으로 평가하는 : 2.24 MB/(들 및 디스크).
IO 바운드 작업 (DFSIO 테스트 검색)의 경우 약 20MB/(s 및 디스크)의 클러스터를 찾을 수 있습니다.
현재 IH 바인딩 작업에 20MB/(s 및 디스크)가 넘는 범용 하드웨어가있는 hadoop 클러스터를 찾을 수 없을 것입니다. 그러나 나는 틀릴 수도 있습니다.
디스크 처리량의 2/3이 어디로가는 지 흥미 롭습니다. –
클러스터 뒤의 수학에 대한 좋은 기사 : http://nathanmarz.com/blog/the-mathematics-behind-hadoop-based-systems.html – hoffmaje
- 1. HBase에서 스트리밍되는 Hadoop mapreduce
- 2. Hadoop mapreduce 프로그래밍
- 3. Hadoop : Iterative MapReduce 성능
- 4. Hadoop MapReduce InputFormat 사용되지 않으셨습니까?
- 5. Hadoop 클러스터에서 mapreduce jar 실행
- 6. 프로그래밍 방식으로 Hadoop Mapreduce 프로그램 출력 읽기
- 7. Hadoop 스트리밍에서 다중 mapreduce 작업 체인화
- 8. hadoop 하이브 질문
- 9. hadoop 초급 질문
- 10. 두 개의 항아리가있는 Hadoop Mapreduce (하나의 항아리가 namenode에만 필요함)
- 11. 지도로이 알고리즘을 구현하는 데 도움이 필요합니다. Hadoop MapReduce
- 12. Hadoop mapreduce 입력 키를 직접 지정하십시오 (파일이 아님)
- 13. Hadoop/MapReduce 구현의 PHP와 다른 언어 및 일반적으로 Cloud에서
- 14. 여러 개의 Hadoop MapReduce 작업을 하나로 결합하는 방법은 무엇입니까?
- 15. Hadoop/MapReduce : DDL에서 생성 된 클래스 읽기 및 쓰기
- 16. HTML 태그가 포함 된 파일의 Hadoop MapReduce 작업
- 17. 스트리밍 데이터 및 Hadoop? (Hadoop Streaming이 아님)
- 18. Hadoop Hive DOUBLE 유형 질문
- 19. Iterative MapReduce
- 20. 처리량 계산
- 21. OpenStreetMap 및 Hadoop
- 22. Hadoop 파이프와 새로운 매핑 패키지
- 23. Amazon MapReduce 감속사 작업 없음
- 24. 메이븐을 사용하여 빌드 hadoop
- 25. Eclipse MapReduce 플러그인을 어떻게 완벽하게 제거합니까?
- 26. nutch over hadoop 살펴보기
- 27. Hadoop MapReduce의 오류
- 28. Sleep을 통한 처리량 제어
- 29. 파이썬 스크립트에서 처리량 증가
- 30. BOSH 처리량 향상
정확한 구현으로 데이터 소스와 구성이 결과에 막대한 영향을 미칠 것으로 예상되는만큼 거의 대답 할 수 없다고 생각합니다. –
정확한 답변이 아닙니다. 그러나 최소한 규모의 순서를 알아야합니다 (IMHO). RDBMS 기반 솔루션의 경우 TPCH Q1 (예 :)을 사용하고 throupput을 볼 수 있습니다. 이해하고 싶습니다. 1MB/초, 10MB/초, 100MB 또는 300MB/초입니까? 솔루션을 계획하고 고객이 구매해야하는 기계의 수를 알아야 할 때를 아는 것이 중요합니다. –
@David Gruzman : 'grunty'PC에서 왜 테스트하지 않습니까? –