2016-09-06 4 views
2

EC2 인스턴스가 겹치는 다음 클러스터가 있습니다. 예를 들어, 원사 클러스터와 Memcached 클러스터가 동일한 인스턴스를 사용 중입니다. 2, 3, 4; 또한 각 인스턴스마다 RAM, CPU, Core 크기가 다르므로 이 잠재적으로 코스 문제입니까? 또는 클러스터 자체로 균형을 조정할 수 있습니까? 고마워요!중복되는 EC2 인스턴스가있는 클러스터

스파크 클러스터 : EC2 인스턴스 2,3,5-
사 클러스터 : EC2 인스턴스 1 2, 3, 4 5
Memcached가 데이터베이스 클러스터 : EC2 인스턴스 2, 3, 4 6

instance 1: 512GB RAM, 2 vCPU, 2 cores 
instance 2: 1TB RAM, 8 vCPU, 4 cores  
instance 3: 2TB RAM, 6 vCPU, 6 cores  
instance 4: 256GB RAM, 2 vCPU, 2 cores 
instance 5: 2TB RAM, 16 vCPU, 4 cores  
instance 6: 4TB RAM, 4 vCPU, 8 cores 

답변

1

클러스터는이 공유를 인식하지 못합니다. 과도한 커미트를 피하기 위해 호스트 당 리소스 할당을 구성해야합니다.

모든 노드의 총 리소스 할당이 모든 RAM/코어/디스크 이상을 사용할 수있는 경우 위험에 처하게됩니다 (자주 스파크 작업이나 실을 시작할 수 없습니다). 예를 들어 3과 같이 각 서비스에 1T를 할당 할 수 없습니다.

마찬가지로 인스턴스 3에서는 각 서비스에 1T를 할당 할 수 없습니다.

사이드 노트로 Spark를 원사 위에서 실행할 수 있으므로이 옵션을 두 개의 클러스터로 줄이는 옵션이 있습니다.

+0

감사합니다. @patrungel, 마지막 문장에 대한 자세한 정보를 얻을 수 있습니까? Spark 클러스터와 Yarn 클러스터가 동일한 클러스터 시스템을 공유 할 수 있다는 것을 의미합니까? 100 % 중복되는 것 같은가요? – faustineinsun

+1

Spark은 Yarn 어플리케이션으로 실행될 수 있습니다. 즉, Yarn을 작업의 자원 관리자로 사용할 수 있습니다. 따라서 overlop은 아니지만 hadoop (mapred) 및 spark 작업 모두에 _same_ cluster를 사용합니다. 이 경우 맵핑 된 작업과 스파크 작업은 공통된 스케줄링의 대상이되므로 관련이없는 두 개의 클러스터를 처리 할 필요가 없습니다. 이것은 매우 일반적인 설정입니다. http://spark.apache.org/docs/latest/running-on-yarn.html을 참조하십시오. 기존의 원사 클러스터에 스파크를 추가하는 것은 간단한 작업입니다. – patrungel

관련 문제