2014-01-21 2 views
2

Hadoop 버전 1에서 Hadoop 버전 2로 업데이트 할 계획입니다. 아무도 말해 주실 수 없습니까 (hadoop 버전 2를 사용해 본 경우), MR/Hive/Pig의 성능이 향상 되었습니까? 버전 1 이상의 버전 2에있는 작업들?Hadoop 버전 1 vs 2 버전 성능

답변

1

여기에 apache의 메모가 있습니다. 개선 사항의 주요 내용은 다음과 같습니다.

다음은 HDFS 및 MapReduce에 대한 간략한 개요입니다.

HDFS 연합 페더레이션은 이름 서비스를 수평으로 확장하기 위해 여러 개의 독립적 인 네임 노드/네임 스페이스를 사용합니다. 네임 노드는 연합되어 있습니다. 즉, 네임 노드는 독립적이며 서로 조정할 필요가 없습니다. 데이터 노드는 모든 네임 노드가 블록을 공유 할 수있는 저장소로 사용됩니다. 각 데이터 노드는 클러스터의 모든 네임 노드에 등록됩니다. 데이터 노드는 정기적 인 하트 비트를 보내고 보고서를 차단하고 네임 노드의 명령을 처리합니다.

자세한 내용은 HDFS Federation 문서를 참조하십시오.

MapReduce NextGen 별명 YARN aka MRv2 hadoop-0.23에 도입 된 새로운 아키텍처는 JobTracker의 두 가지 주요 기능인 리소스 관리 및 작업 라이프 사이클 관리를 별도의 구성 요소로 나눕니다.

새로운 ResourceManager는 컴퓨팅 리소스를 응용 프로그램에 할당하고 응용 프로그램마다 응용 프로그램 마스터가 응용 프로그램의 일정과 조정을 관리합니다.

응용 프로그램은 고전적인 MapReduce 작업의 의미에서의 단일 작업이거나 그러한 작업의 DAG입니다.

해당 컴퓨터의 사용자 프로세스를 관리하는 ResourceManager 및 컴퓨터 별 NodeManager 데몬이 계산 구조를 구성합니다.

응용 프로그램 당 ApplicationMaster는 실제로 프레임 워크 특정 라이브러리이며 ResourceManager에서 자원을 협상하고 NodeManager와 협력하여 작업을 실행 및 모니터링합니다.

+0

답장을 보내 주셔서 감사합니다. Hadoop v2 릴리스 노트를 읽었으며 YARN, MR2 및 기타 아키텍처 변경과 같은 새로운 기능을 발견했습니다. 누군가 내가 v1에 비해 v2에서 임의의 MR/Hive/PIG 작업을 비교하고 성능 향상을 발견했는지 알아야합니다. – rusho1234