나는 hadoop I/O 성능을 벤치마킹하기 위해 TestDFSIO를 사용하고 있습니다. 내가 사용하고있는 테스트 장비는 3 개의 데이터 노드와 하나의 이름 노드로 구성된 작은 가상 클러스터입니다. 각 VM에는 6-8GB의 RAM과 100-250GB의 HDD가 있습니다.hadoop 벤치마킹의 모범 사례는 무엇입니까?
나는 대해 두 가지를 알고 싶어 :
- 내 설정 등에 대한
각 파일에 대한 파일 (nrFIles)과 파일 크기의 수에 대한 값을해야한다 무엇 (이는 파일 크기) 매개 변수를 우리가 저의 작은 클러스터의 결과를 8-12 x 2 TB의 하드 디스크와 64 GB의 RAM 및 더 빠른 처리 속도와 같은 표준 크기의 클러스터와 관련시킬 수 있습니다. 그렇게하는 것이 맞습니까?
일반적으로 벤치 마크 테스트의 모범 사례는 무엇입니까? 마찬가지로 : 것을 권장 클러스터 사양 (데이타 노드의 사양, namenodes), 권장 테스트 데이터 크기, 테스트 베드는 결과를하기 위해해야 어떤 구성/사양 실제 하둡 애플리케이션에 적합 할 것입니다
간단히 말해서 정확한 결과 테스트가 생산 클러스터와 관련 될 수 있도록 올바른 테스트 도구 설치 및 올바른 테스트 방법에 대해 알고 싶습니다.
입증 된 작업에 대한 참조가 도움이 될 것입니다.
가 나는지도 작업의 수는 nrFiles 에 대한 언급 수와 동일 할 것이다 발견 -nrFiles 15 -fileSize 1기가바이트 을하지만 어떻게 그들이 3 개 데이터 노드에 분산한다고 가정 해 또 다른 질문? 15 가지 맵 작업이 명확하지 않습니다. 15 개의 파일에 대해 각 파일마다 하나의 매퍼가 작동합니까?
정확히 어떻게 testDFSIO가 작동하는지에 대한 문서 나 설명을 찾지 못했습니다.
SO에 오신 것을 환영합니다. 질문을 할 때 좀 더 구체적으로 질문하십시오 : 시도한 내용, 예상되는 내용 등 [http : // http : //stackoverflow.com/help/how-to-ask) – Nehal
나는 내 질문을 더 분명하게했으면 좋겠다. – samiran