2013-10-02 5 views
4

EC2는 더 유연하지만 EMR보다 많은 작업을 수행합니다. 그러나 비용면에서 EC2를 사용하는 경우 EC2 인스턴스에 첨부 된 EBS 볼륨이 필요하지만 AWS는 S3의 데이터를 스트림합니다. 그래서 AWS 계산기에서 숫자를 계산하면 EMR에 대한 비용도 지불해야하지만 EMR은 EC2보다 저렴합니다. ?? 내가 틀렸어? 물론 EBS를 사용한 EC2가 더 빠를 수도 있지만 비용이 들까 요?EMR 대 AWS의 EC2/Hadoop

덕분에, 매트

+0

http://stackoverflow.com/a/15178916/610305 – Amar

답변

2

당신은 EMR 오히려 EBS보다, 예를 매장 백업 EC2 인스턴스를 사용하는 올바른지. 그러나 AMI를 패킹하고 Hadoop 클러스터에 사용하여 인스턴스 저장소 기반 인스턴스를 만드는 것을 막을 수있는 방법은 없습니다. EBS를 사용하면 작업량과 빈도에 따라 많은 추가 비용이 발생하지 않을 수 있습니다. 또한 EMR을 통해 EC2 인스턴스를 사용할 때 EC2 인스턴스에 추가 비용이 부과됩니다.

저는 2 년 동안 EMR을 사용 해왔고 배포 관리 및 업데이트에 시간을 투자 할 필요가 없으므로이 서비스를 적극 권장합니다. 작업 부하가 EMR (DynamoDB 또는 S3에서 데이터 가져 오기)과 호환되는 경우 EC2/Hadoop이 아닌 EMR을 사용합니다.

4

EMR은 EC2의 표준 Hadoop에서 찾을 수없는 많은 것들을 제공합니다. 특히 중요한 몇 가지 항목은 다음과 같습니다.

  • 컴퓨터에서 S3으로 Hadoop 로그를 복사하는 중입니다. 이는 클러스터가 종료 된 후 오류를 디버깅하는 데 매우 유용합니다.
  • 실행중인 작업은
  • 액세스가 저렴 컴퓨팅을위한 동적
를 클러스터의 크기를 조정하는
  • 능력을 인스턴스를 탐지하는 선택 하드웨어 크기에 따라 합리적인 구성 기본값을 설정 여러 맵리 듀스, 돼지 또는 하이브 작업
  • 의 흐름

    EMR S3 파일 시스템은 Apache Hadoop과 함께 제공되는 표준 파일 시스템보다 빠르고 안정적입니다. 그것은 Multipart 업로드를 지원하고 디스크에 먼저 버퍼링하기보다는 S3에 직접 스트림을 씁니다. 이에 대한 자세한 내용은 Tip #5

    을 참조하십시오. 또한 EC2를 직접 사용하기로 결정한 경우 노드에 EBS 대신 인스턴스 저장소를 사용하는 것이 좋습니다. Hadoop을위한 EBS의 추가 비용을 지불 할 이유는 없습니다. EMR 클러스터는 모두 인스턴스 스토리지 노드에서도 실행된다는 것을 알 수 있습니다.

  • +0

    감사합니다 - 인스턴스 저장소 사용 중 : 내 작업이 희박하게 실행되므로 인스턴스를 종료하고 싶습니다. EBS에 모든 것을 저장하는 것보다 데이터 및 결과를 앞뒤로 스트리밍하는 것이 느린가요? 또한 AWS는 소규모 인스턴스 스토리지 (~ 8Gig) 또는 초대형 (48TB)을 제공합니다. 그다지 좋은 선택은 아닙니다. 몇 TB의 데이터가 있습니다. 또 다른 질문 : 이름 노드/2 차 NN , Job Tracker Machine 또는 EMR이 나를 위해 이것을 처리합니까? –

    +0

    EMR이 NN 및 Job Tracker 설정을 처리합니다. EC2에서 데이터를 스트리밍하는 것이 EBS 노드로 가져 오는 것이 더 쉽다는 것을 알게 될 것입니다. 또한 데이터가 Hadoop에 저장되면 기본적으로 3 배로 복제되므로 백업 저장소에 관계없이 한 번에 한두 개의 노드를 종료 할 수 있어야합니다. – ddaniels888