2013-07-30 3 views
-2

방대한 데이터로 작업하고 있습니다. 입력 데이터는 약 100GB입니다. hadoop 배포판 중 하나를 선택하고 싶지만 mapr 클러스터 또는 cloudera 클러스터를 선택하지 않아도됩니다. 나는 무료 버전 (mapo M3 및 hadouop 0.20을 사용하는 cloudera CDH4)을 사용하고자한다. 그 중 어느 것이 더 낫습니까? 어느 구성이 가장 잘 작동하는지 어떻게 사용합니까? 감사합니다. .더 나은 하원 분포는 어느 것입니까?

+1

100Gigs을 대규모 ??? 먼저 하둡에 대한 몇 가지 배경이 필요합니다. – Tariq

+1

@Tariq 아니요, 저는 약 1000 개의 파일이 있으며 각 파일은 100Gigs입니다. – user1878364

+0

오 .. 질문의 언어가 저에게 인상을주었습니다. 미안합니다. 아래 답변을 참조하십시오. 하지만, 난 아직도 귀하의 질문은 너무 광범위하므로 질문이 될 것 같아요 :) – Tariq

답변

2

실제로이 질문에 대한 대답은이 세상에서 가장 일반적인 대답입니다. 에 달려 있습니다. 그것은 당신과 당신의 요구 사항에 완전히 달려 있습니다. 하나는 특정 향이 그/그녀의 필요에 더 적합하다는 것을 알 수 있고, 같은 향이 덜 유용하다는 것을 알 수 있습니다. 게다가 그것은 내가 개인적으로 아파치의 하둡을 좋아하는 것처럼 개인적인 선택에 관한 것입니다. 모두 좋다. 그것은 귀하의 필요에 맞는 것입니다.

그들 중 어느 것이 나은가?은 논쟁의 여지가있는 주제입니다. 이런 질문은 종종 뜨거운 논쟁으로 끝납니다. 예를 들어 question을 참조하십시오. 그래서, 나는 다른 하나의 이점을 나열하지 않을 것입니다. 그러나 Hadoop의 이러한 여러 가지 맛은 특정 생각에서 생각할 때 도움이 될 수 있습니다.

CDH (하둡 아파치뿐만 아니라)과 MapR 가장 큰 차이점

은 MapR은 독자적인 파일 시스템, MapRFS 대신 HDFS의을 사용한다는 것입니다. M3 에디션은 무제한으로 사용할 수 있으며 무료입니다. 지원은 커뮤니티 기반 및 MapR 포럼을 통해 제공됩니다. CDH는 100 % 오픈 소스이며 Cloudera Manager의 "Standard"버전을 무료로 사용할 수 있습니다. 그리고 아파치, 잘 아파치 :). 이제까지 느끼는 것을해라.

MapR은 최근에 Canonical으로 조직되었습니다. Hadoop을 저장소를 통해 Ubuntu의 통합 된 부분으로 사용할 수 있도록하기 위해 Ubuntu 운영 체제가 조직되었습니다. 파트너쉽은 MapR의 M3 Hashop 용 M3 에디션이 패키지로 제공되며 Ubuntu 운영 체제의 통합 된 부분으로 다운로드 할 수있게한다고 발표했습니다 (자세한 내용은 this 참조). 소스 코드는 Github에 있습니다. CDH 코드베이스는 아파치와 동일하다.

그러나 무료 버전이 은 JobTracker HA, 네임 노드 HA, 미러링, 스냅 샷 등 CDH4 같은 좋은 기능이 부족은 하둡 2.x를 기반으로하고는 HA 비록 기능을 제공합니다. MapR의 설계 덕분에 CDH3 (또는 Hadoop-1.x)처럼 SPOF가 없습니다. MapRFS는 개념적으로 클러스터에 분산 된 컨테이너 세트에 볼륨에 데이터를 저장합니다. 각 컨테이너에는 고유 한 메타 데이터가 포함되어있어 NameNode의 단일 SPOF (point of failure)가 제거됩니다. 여전히 API는 Apache Hadoop과 호환됩니다. MapR 설치 요구 사항은 Apache/CDH와 다릅니다. MapR과 마찬가지로 설치시 원시 볼륨을 사용할 수 있어야합니다. 올바른 하드웨어 & OS 사전 요구 사항을 얻으면 설정 시간과 평가 시간은 Apache/CDH와 동일한 크기의 순서 여야합니다.

이럴는, M3는 인기를 얻기 쉬운 MapR 기능 중 일부는 M3 무료 버전에 존재하지 않는 것처럼 처럼, 아파치/CDH 이상 당신에게 큰 이점을 줄 않을거야 NFS-HA, 스냅 샷

처음 인 한 Cloudera 확실히 경험과 견고한 고객 기반 측면에서 여분의 우위를 가지고 있습니다. 그러나 MapRed는 MapReduce 및 HDFS 구성 요소의 중요한 변경 사항에 대해 혁신적인면에서 개선되어 성능을 향상 시켰습니다.내가 통화 해요 당신이 대답을 기다리고 있습니다로

내가, 언젠가 이후에 좀 더 쓸 것이다)

+0

고마워, 아주 유용했다. – user1878364

+0

hadoop-2.x가 제공하는 hadoop-0.20은 무엇입니까? – user1878364

+0

HDFS HA, YARN 및 추가 기능 (1.2에서 사용할 수 있지만 100 % 완벽하지는 않음) 등의 여러 가지 다른 최적화 및 향상 기능이 있습니다. – Tariq

관련 문제