2016-09-27 4 views
0

나는 hadoop I/O 성능을 벤치마킹하기 위해 TestDFSIO를 사용하고 있습니다. 내가 사용하고있는 테스트 장비는 3 개의 데이터 노드와 하나의 이름 노드로 구성된 작은 가상 클러스터입니다. 각 VM에는 6-8GB의 RAM과 100-250GB의 HDD가 있습니다.hadoop 벤치마킹의 모범 사례는 무엇입니까?

나는 대해 두 가지를 알고 싶어 :

  1. 내 설정 등에 대한

    각 파일에 대한 파일 (nrFIles)과 파일 크기의 수에 대한 값을해야한다 무엇 (이는 파일 크기) 매개 변수를 우리가 저의 작은 클러스터의 결과를 8-12 x 2 TB의 하드 디스크와 64 GB의 RAM 및 더 빠른 처리 속도와 같은 표준 크기의 클러스터와 관련시킬 수 있습니다. 그렇게하는 것이 맞습니까?

  2. 일반적으로 벤치 마크 테스트의 모범 사례는 무엇입니까? 마찬가지로 : 것을 권장 클러스터 사양 (데이타 노드의 사양, namenodes), 권장 테스트 데이터 크기, 테스트 베드는 결과를하기 위해해야 ​​어떤 구성/사양 실제 하둡 애플리케이션에 적합 할 것입니다

간단히 말해서 정확한 결과 테스트가 생산 클러스터와 관련 될 수 있도록 올바른 테스트 도구 설치 및 올바른 테스트 방법에 대해 알고 싶습니다.

입증 된 작업에 대한 참조가 도움이 될 것입니다.

가 나는지도 작업의 수는 nrFiles 에 대한 언급 수와 동일 할 것이다 발견 -nrFiles 15 -fileSize 1기가바이트 을하지만 어떻게 그들이 3 개 데이터 노드에 분산한다고 가정 해 또 다른 질문? 15 가지 맵 작업이 명확하지 않습니다. 15 개의 파일에 대해 각 파일마다 하나의 매퍼가 작동합니까?

정확히 어떻게 testDFSIO가 작동하는지에 대한 문서 나 설명을 찾지 못했습니다.

+0

SO에 오신 것을 환영합니다. 질문을 할 때 좀 더 구체적으로 질문하십시오 : 시도한 내용, 예상되는 내용 등 [http : // http : //stackoverflow.com/help/how-to-ask) – Nehal

+0

나는 내 질문을 더 분명하게했으면 좋겠다. – samiran

답변

0

두 클러스터의 결과를 비교할 수 없습니다. 결과는 노드의 매퍼 수, 복제 계수, 네트워크 등에 따라 달라질 수 있습니다. 클러스터 사양은 사용하려는 대상에 따라 달라집니다. -nrFiles 15 -fileSize 1000을 제공하면 각 1GB 당 15 개의 파일이 생성됩니다. 각 매퍼는 단일 파일에서 작동하므로 15 개의 맵 작업이 있습니다. 3 노드 클러스터에서 노드에 매퍼가 하나만 있다고 가정하면 전체 데이터를 쓰는 데 5 웨이브가 필요합니다. 은 testDFSIO 및 기타 벤치마킹 도구에 대한 아래 링크를 참조하십시오. http://www.michael-noll.com/blog/2011/04/09/benchmarking-and-stress-testing-an-hadoop-cluster-with-terasort-testdfsio-nnbench-mrbench/

+0

답변을 주셔서 감사합니다. 같은 것을 생각하기 시작했습니다. 두 클러스터를 비교할 수 없기 때문에 결과는 내 클러스터에만 속하고 다른 클러스터는 정의 할 수 없습니다. – samiran