2014-10-30 5 views
-1

4 시스템이 있습니다. 일부 데이터를 크롤링하고 싶습니다. 먼저 클러스터를 구성해야합니다. 구성 요소 배치에 대해 혼란 스럽습니다.아파치 hadoop, hbase 및 nutch 구성 요소 배포 4 서버 클러스터

  1. 하나의 컴퓨터에 모든 구성 요소 (hadoop, hive, hbase, nutch)를 배치하고 다른 컴퓨터를 hadoop의 노드로 추가해야합니까?
  2. 하나의 컴퓨터에 hbase을두고, 다른 컴퓨터에 nutch를 설치하고 3 번째에 hadoop을 설치하고 hadoop의 슬레이브로 컴퓨터를 추가해야합니까?
  3. HBase가 의사 배포 모드이거나 전체 배포되어 있어야합니다.
  4. 완전히 분산 모드로 실행하면 hbase에 추가되는 슬레이브의 수를 hbase에 추가 할 수 있습니다.

가장 좋은 방법은 무엇입니까? (hbase 및 hadoop의 경우)

답변

2

4 개의 노드 n1, n2, n3 및 n4가 있다고 가정 해보십시오. hadoop 및 hbase를 분산 모드로 설치할 수 있습니다. 당신은 하둡 1.x에서 사용하는 경우 - HBase를 들어

n1 - hadoop master[Namenode and Jobtracker] 
n2, n3 and n3 - hadoop slaves [datanodes and tasktrackers] 

를 마스터 노드는 일반적으로 CPU/메모리 집약적 아니기 때문에, 당신은 N1 또는 마스터 노드와 다른 노드를 선택할 수 있습니다, 모든 마스터는 하나에 배포 할 수 있습니다 테스트 설치시 노드, 그러나 Production에서는 별도의 노드에 각 Master 배포를 설치하는 것이 좋습니다.

Lets say n2 - HBase Master, remaining 3 nodes can act as regionservers. 

하이브와 노드는 어느 노드 에나있을 수 있습니다. 희망이 도움이된다; 테스트 셋업을 위해서는 이것이 좋을 것입니다.


업데이트 - 하둡 2.x를 들어

, 클러스터 크기가 작기 때문에, 네임 노드 HA 배포를 건너 뛸 수 있습니다. 네임 노드 HA는 활성 노드와 대기 노드에 각각 하나씩 두 개의 노드가 필요합니다.

다시 노드 수가 홀수 인 사육사 정족수이므로 최소 3 개의 노드가 필요합니다.

저널 쿼럼에는 다시 최소 3 개의 노드가 필요합니다.

그러나 클러스터의 경우이 작은 HA는 주요 관심사가 아닐 수도 있습니다. 네임 노드

N2 - - 그래서 당신은

N1 유지할 수 ResouceManager 또는 실

을하고 나머지 노드는 데이타 노드 역할 원사 노드에서 다른 작업을 배포 할 수 없습니다 시도 할 수 있습니다.

HBase, Hive 및 Nutch의 나머지 배치는 ​​동일하게 유지됩니다.

+0

내 하둡 버전을 costruct 수있는 방법에 대한 자세한 지침을 2.x에서 – Shafiq

+0

이인가되어 찾을 수 있습니다 테스트 설정? – mbaxi

+0

아니요, 테스트 용으로 만 사용되는 것이 아니라 실제 사용을 위해 – Shafiq

0

내 의견으로는, 완전 분산 모드에서 Hadoop을 설치해야 MapReduce 작업이 4 대의 컴퓨터에 분산되므로 작업을 병렬 방식으로 실행할 수 있고 훨씬 빨라질 수 있습니다. 물론 Hadoop의 마스터 노드는 하나의 단일 시스템에서 실행되어야합니다.당신은 데이터의 큰 양을 처리해야하는 경우

, 그것은 당신은 매우으로 위의 모든 매우 쉽게 사용하는 도구/플랫폼을 만들 수 3.

에서 하나의 기계에서 HBase를 설치하는 좋은 선택과 하둡의 Cloudera Manager 및 Hortonworks와 같은 친숙한 GUI를 제공합니다. 클러스터를보다 잘 제어하고 유지 관리하는 데 도움이되지만 클러스터에서 발생하는 모든 오류에 대해 상태 모니터링, 클러스터 분석 및 전자 메일 알림도 제공합니다.

클라우 데라 매니저 http://www.cloudera.com/content/cloudera/en/products-and-services/cloudera-enterprise/cloudera-manager.html

호튼 웍스 http://hortonworks.com/

이 두 링크에서, 당신은 당신이 당신의 클러스터

+0

질문에 포괄적이지 않습니다 – HMS

관련 문제