2012-06-25 4 views
8

Hadoop이 실행되는 머신이 서로 다르면 Hadoop의 성능이 크게 떨어지는 것을 읽었습니다.하지만 더 이상 그 주석을 찾을 수없는 것 같습니다. 내 그룹에서 직접 관리하지 않는 VM 배열에서 Hadoop 클러스터를 실행하고 싶습니다. 요청이 필요한지 여부를 알아야합니다.동일한 하드웨어에서 hadoop 클러스터를 실행해야합니까?

따라서 동일한 하드웨어를 사용하는 모든 컴퓨터를 고집해야합니까, 아니면 다른 하드웨어 구성의 다른 컴퓨터에서 실행해도 괜찮습니까?

감사합니다.

답변

12

다음 논문은 이기종 클러스터가 하둡의 성능에 영향을 미치는 방법에 대해 설명지도 - 감소 :

을 이기종 클러스터에서 노드의 컴퓨팅 용량은 유의하게 다를 수 있습니다. 고속 노드는 노드의 로컬 디스크 에 저장된 처리 데이터를 저속 대응 노드보다 빠르게 처리 할 수 ​​있습니다. 고속 노드가 로컬 입력 데이터 처리를 완료 한 후 노드 은 이상의 원격 저속 노드에있는 처리되지 않은 데이터를 처리하여로드 공유를 지원해야합니다. 로드 공유로 인해 전송 된 데이터의 양이 매우 클 경우 처리되지 않은 데이터 을 느린 노드에서 빠른 노드로 이동하는 오버 헤드는 Hadoop의 성능에 영향을주는 중요한 문제가됩니다.

다음 참조는 자세한 내용이 있습니다 : 그것은 또한 이기종 클러스터의 성능을 개선하거나 성능 저하를 피할 수있는 방법을 제공합니다

  1. http://computerresearch.org/stpr/index.php/gjcst/article/view/749/658
  2. http://www.usenix.org/event/osdi08/tech/full_papers/zaharia/zaharia.pdf

합니다.

클러스터에 동종의 시스템이 있지만 클러스터의 사양 및 성능이 크게 다르지 않은 경우 클러스터를 구축해야합니다.

생산 시스템의 경우 균질 한 기계를 제안해야합니다. 개발을 위해서는 성능이 중요하지 않습니다.

Hadoop 클러스터를 빌드 한 후에는 벤치마킹 할 수 있어야합니다.

+0

좋은 조언입니다, 감사합니다! – ILikeFood

2

균질 클러스터가 확실히 이상적이지만 꼭 필요한 것은 아닙니다. 예를 들어 Yahoo!, Inc.는 프로덕션 환경에서 이기종 클러스터를 실행합니다. 연구원과 이야기하면서 일정 잡기 문제 (성능 인식 스케줄링을 도구에 추가하기 위해 열심히 노력하고 있음)로 인한 성능 저하가 있음을 알았지 만 패널티가 그리 큰 문제는 아닙니다.

관련 문제