2014-03-25 4 views
3

나는 클라우 데라의 인프라 또는 아키텍처에 익숙 해요 :MapR 아키텍처 대 클라우 데라 아키텍처

마스터 노드는 네임 노드, SecondaryNameNode, JobTracker를, 그리고 HMaster을 포함한다. 슬레이브 노드에는 DataNode, TaskTracker 및 HRegionServer가 포함됩니다.

마스터 노드는 모두 자신의 노드에 있어야합니다 (작은 클러스터 인 경우 SecondaryNameNode, JobTracker 및 HMaster를 조합 할 수 있고, 실제로 작은 클러스터 인 경우 NameNode조차도 제외).

슬레이브 노드는 항상 동일한 노드에 공동으로 위치해야합니다. 슬레이브 노드가 많으면 많을수록 더 좋은 결과를 얻을 수 있습니다.

SecondaryNameNode는 고 가용성 (High Availability)을 위해 활성화하지 않는 한 잘못된 이름입니다.

MapR은이 설정을 유지합니까? 비슷한 점과 차이점은 무엇입니까?

답변

2

MapR은 바닐라 하둡에서 벗어납니다. & CDH 배포판. 대부분의 서비스와 구조 (Job Tracker, Data Nodes, HBase Master & Region, MR 등)를 유지하지만 몇 가지 중요한 차이점이 있습니다.

MapR의 배포에 대한 정의 항목 중 하나는 HDFS를 사용하지 않는다는 것입니다. 자체 커스텀 FS를 가지고 있는데, 이는 HA를 특징으로하며 Name Nodes없이 (분산 메타 데이터를 통해) 작동합니다. 또한 Hadoop 배포판과 스냅 샷 (snap shotting)을 앞두고 NFS 액세스를 가능하게했습니다.

사용자 정의 FS는 배포를 약간 복잡하게 만듭니다. 예를 들어, 제품 또는 서비스를 실행하려는 경우 MapR 특정 패치를 설치해야합니다. mahout을 실행하려면 https://github.com/mapr/mahout의 MapR 패치를 사용하여 컴파일해야합니다. 그러나 "Access Control Expressions"구현과 클러스터/작업/볼륨 ACL에서 볼 수 있듯이 FS 수준에서 더 나은 보안을 통합 할 수있는 기회도 제공합니다.

전반적으로 잘 구성된 제품입니다. 가장 큰 관심사는 새로운 혁신이 도입 될 때 매우 적응 환경에 통합되어야하기 때문에 적응 속도가 느리다는 것입니다. YARN은 완벽한 예입니다 ... 경쟁사에도 불구하고 아직 출시하지 않았습니다.

+0

감사합니다. 업데이트로, 2014 년 2 월 11 일 현재 [MapR에는 YARN이 통합되어 있음] (http://www.mapr.com/blog/take-charge-hadoop-2x-and-yarn#.UzIqd1dUN1E)이 표시됩니다. –

+0

아, 좋은 지적. 나는 1 월 이후 그들에 대해 조사하지 않았다. 나는 실제로 최근의 갱신을 논의하기 위해 다음 주에 MapR 엔지니어 몇 명과 만날 예정이다! – JamCon

+0

2/Nov/2014는 미래에 ... – MikeKulls

4

his reply에서 @JamCon하여 좋은 정보, 그러나 명확히 가치가 몇 가지있다 :

코멘트에 대한 패치는 정확하지 않습니다. MapR은 광범위한 Hadoop 프로젝트를 배포 할 수 있도록 별도로 컴파일 할 필요가 없습니다. 그리고 MapR은 다른 배포판과 같은 API를 가지고 있습니다. 즉, 패키지는 호환성에 관한 것이 아니라 단순히 커뮤니티의 버그 수정/개선 사항입니다. 일반적으로 MapR에서 Hadoop 생태계 프로젝트를 실행하는 데 필요한 추가 작업은 없습니다. 그리고 그들은 적어도 한 달에 한 번 생태계 업데이트를 발표하고, 내가 알 수있는 한, 새로운 개선 사항을 최신 상태로 유지합니다.

YARN을 포함하는 것과 관련하여 우리는 '14 년 7 월 이후 대규모 클러스터에서 YARN을 통해 MapR을 실행했습니다! MapR에는 자체 생태계 프로젝트 검사 프로세스가 있으며 MapR 패키지 버전을 GA로 졸업하면 프로젝트가 엔터프라이즈 지원에 적합하다고 판단됩니다.

관련 문제