방대한 데이터로 작업하고 있습니다. 입력 데이터는 약 100GB입니다. hadoop 배포판 중 하나를 선택하고 싶지만 mapr 클러스터 또는 cloudera 클러스터를 선택하지 않아도됩니다. 나는 무료 버전 (mapo M3 및 hadouop 0.20을 사용하는 cloudera CDH4)을 사용하고자한다. 그 중 어느 것이 더 낫습니까? 어느 구성이 가장 잘 작동하는지 어떻게 사용합니까? 감사합니다. .더 나은 하원 분포는 어느 것입니까?
답변
실제로이 질문에 대한 대답은이 세상에서 가장 일반적인 대답입니다. 은에 달려 있습니다. 그것은 당신과 당신의 요구 사항에 완전히 달려 있습니다. 하나는 특정 향이 그/그녀의 필요에 더 적합하다는 것을 알 수 있고, 같은 향이 덜 유용하다는 것을 알 수 있습니다. 게다가 그것은 내가 개인적으로 아파치의 하둡을 좋아하는 것처럼 개인적인 선택에 관한 것입니다. 모두 좋다. 그것은 귀하의 필요에 맞는 것입니다.
그들 중 어느 것이 나은가?은 논쟁의 여지가있는 주제입니다. 이런 질문은 종종 뜨거운 논쟁으로 끝납니다. 예를 들어 question을 참조하십시오. 그래서, 나는 다른 하나의 이점을 나열하지 않을 것입니다. 그러나 Hadoop의 이러한 여러 가지 맛은 특정 생각에서 생각할 때 도움이 될 수 있습니다.
CDH (하둡 아파치뿐만 아니라)과 MapR 가장 큰 차이점
은 MapR은 독자적인 파일 시스템, MapRFS 대신 HDFS의을 사용한다는 것입니다. M3 에디션은 무제한으로 사용할 수 있으며 무료입니다. 지원은 커뮤니티 기반 및 MapR 포럼을 통해 제공됩니다. CDH는 100 % 오픈 소스이며 Cloudera Manager의 "Standard"버전을 무료로 사용할 수 있습니다. 그리고 아파치, 잘 아파치 :). 이제까지 느끼는 것을해라.MapR은 최근에 Canonical으로 조직되었습니다. Hadoop을 저장소를 통해 Ubuntu의 통합 된 부분으로 사용할 수 있도록하기 위해 Ubuntu 운영 체제가 조직되었습니다. 파트너쉽은 MapR의 M3 Hashop 용 M3 에디션이 패키지로 제공되며 Ubuntu 운영 체제의 통합 된 부분으로 다운로드 할 수있게한다고 발표했습니다 (자세한 내용은 this 참조). 소스 코드는 Github에 있습니다. CDH 코드베이스는 아파치와 동일하다.
그러나 무료 버전이 은 JobTracker HA, 네임 노드 HA, 미러링, 스냅 샷 등 CDH4 같은 좋은 기능이 부족은 하둡 2.x를 기반으로하고는 HA 비록 기능을 제공합니다. MapR의 설계 덕분에 CDH3 (또는 Hadoop-1.x)처럼 SPOF가 없습니다. MapRFS는 개념적으로 클러스터에 분산 된 컨테이너 세트에 볼륨에 데이터를 저장합니다. 각 컨테이너에는 고유 한 메타 데이터가 포함되어있어 NameNode의 단일 SPOF (point of failure)가 제거됩니다. 여전히 API는 Apache Hadoop과 호환됩니다. MapR 설치 요구 사항은 Apache/CDH와 다릅니다. MapR과 마찬가지로 설치시 원시 볼륨을 사용할 수 있어야합니다. 올바른 하드웨어 & OS 사전 요구 사항을 얻으면 설정 시간과 평가 시간은 Apache/CDH와 동일한 크기의 순서 여야합니다.
이럴는, M3는 인기를 얻기 쉬운 MapR 기능 중 일부는 M3 무료 버전에 존재하지 않는 것처럼 처럼, 아파치/CDH 이상 당신에게 큰 이점을 줄 않을거야 NFS-HA, 스냅 샷 등
처음 인 한 Cloudera 확실히 경험과 견고한 고객 기반 측면에서 여분의 우위를 가지고 있습니다. 그러나 MapRed는 MapReduce 및 HDFS 구성 요소의 중요한 변경 사항에 대해 혁신적인면에서 개선되어 성능을 향상 시켰습니다.내가 통화 해요 당신이 대답을 기다리고 있습니다로
내가, 언젠가 이후에 좀 더 쓸 것이다)
고마워, 아주 유용했다. – user1878364
hadoop-2.x가 제공하는 hadoop-0.20은 무엇입니까? – user1878364
HDFS HA, YARN 및 추가 기능 (1.2에서 사용할 수 있지만 100 % 완벽하지는 않음) 등의 여러 가지 다른 최적화 및 향상 기능이 있습니다. – Tariq
- 1. Solr + PHP를위한 더 나은 클라이언트는 어느 것입니까?
- 2. 대용량 데이터베이스를위한 더 나은 플랫폼은 어느 것입니까
- 3. 플러그인에 인스턴스를 제공하는 더 나은 방법은 어느 것입니까?
- 4. 어느 것이 더 빠를 것입니까?
- 5. 안드로이드에서 더 나은리스트 뷰 유용성은 어느 것입니까?
- 6. 어느 쪽이 더 나은 이름입니까?
- 7. 더 빠른보기 또는 하위 쿼리는 어느 것입니까?
- 8. 더 선호하는 이유는 다음 중 어느 것입니까
- 9. 어느 날짜 조건이 더 빠를 것입니까?
- 10. 더 빠른 RegisterStartupScript 또는 RegisterClientScriptBlock은 어느 것입니까?
- 11. DDD에서 도메인 객체 모델링보다 나은 것은 어느 것입니까?
- 12. 어느 것이 WF4.0을위한 더 나은 아키텍처입니까?
- 13. 어느 것이 더 나은 데이터베이스 설계입니까?
- 14. 어느 쪽이 더 나은 데이터베이스 설계
- 15. 어느 쪽이 더 나은 연습 자바입니다
- 16. 어느 쪽이 더 나은 접근 방식 이미지
- 17. 어느 것이 더 빠르고 더 나은 SQL 연습입니까?
- 18. 올바른 & 문자열에 어느 것입니까?
- 19. 올바른 구문은 어느 것입니까?
- 20. 선택할 EC2는 어느 것입니까?
- 21. 지원 라이브러리 .... 어느 것입니까?
- 22. 데이터베이스 성능은 어느 것입니까?
- 23. 더 나은 성능과 더 나은 구조
- 24. 내 코드에서 더 나은 코드 동작은 어느 것입니까? 내 코드를 변경하는 방법?
- 25. MySQL 5.5 : 다음 중 innodb의 text/varchar 필드를위한 더 나은 저장소는 어느 것입니까?
- 26. Parse, Firebase 및 AWS Cognito간에 사용자에게 더 나은 점은 어느 것입니까?
- 27. 아래에 언급 된 사례와 관련된 더 나은 선택 인터페이스 또는 열거 형은 어느 것입니까?
- 28. 유닉스/리눅스를 배울 수있는 더 나은 플랫폼은 어느 것입니까? (Kali Linux 대 Red Hat 또는 기타)
- 29. Java EE webservices, 어느 것입니까?
- 30. 목록의 초기화 방법이 어느 것입니까?
100Gigs을 대규모 ??? 먼저 하둡에 대한 몇 가지 배경이 필요합니다. – Tariq
@Tariq 아니요, 저는 약 1000 개의 파일이 있으며 각 파일은 100Gigs입니다. – user1878364
오 .. 질문의 언어가 저에게 인상을주었습니다. 미안합니다. 아래 답변을 참조하십시오. 하지만, 난 아직도 귀하의 질문은 너무 광범위하므로 질문이 될 것 같아요 :) – Tariq