2015-02-05 2 views
1

Hadoop 클러스터를 사용하는 첫 번째 옵션은 Blob 또는 HDFS 스토리지와 함께 HDInsight를 사용하고 두 번째 방법은 Microsoft Azure에 강력한 Windows Server를 배포하는 두 가지 방법을 조사하고 있습니다. 가상화를 사용하여 HDP (Hortonwork Data Processing)를 실행하십시오. 두 번째 대안은 나에게 더 많은 유연성을 제공하지만, 내가 관심을 갖고있는 것은 각 대안의 오버 헤드를 조사하는 것이다. 그것에 대한 아이디어가 있습니까? 특히 Blob 스토리지가 효율성에 미치는 영향은 무엇입니까?AzIn의 HDInsight 및 가상화 된 Hadoop 클러스터

+0

두 옵션 중 하나를 시도하지 않았으므로 이것은 대답이 아니라 단지 주석입니다. 즉, HDInsight가 목표로 삼는 서비스라는 사실에 기반 해 훨씬 비용 효율적인 옵션이 아니라면 놀랄 것입니다. –

+0

내게 정말로 중요한 것은 성과가 아니라 비용이다! –

+0

그럴 경우 측정 기준을 측정하십시오! –

답변

2

이것은 매우 포괄적 인 질문이므로 "여기에 달려 있습니다."라는 대답이 여기에 적합합니다. 고객과 이야기 할 때, 이것이 고객과의 절충안을 보는 방식입니다. 한쪽 끝은 통제의 스펙트럼이고 다른 쪽 끝은 편리합니다. Linux 배포판이나 Hadoop 배포판에 특정 요구 사항이 있습니까? 그런 다음 IaaS를 사용하여 간단하게 배포하고 싶을 것입니다. 대단한 것인데, 통제력은 뛰어나지 만, 패치 및 운영은 여전히 ​​귀하의 책임입니다.

우리는 HDInsight를 관리 서비스로 지칭합니다. 즉, 우리가 의미하는 바는 우리가 당신을 위해 그것을 돌보는 것입니다 (예 : 우리가 클러스터 자체에서 제공하는 SLA와 그것에 실행되는 응용 프로그램, 뿐만 아니라 "VM을 ping 할 수 있습니까?"). 우리는 그 클러스터를 운영하고, 패치를 적용하고, 패치를 설치하고, Hadoop을 패치합니다. 그래서 많은 편의를 제공하지만, 리눅스 배포판을 선택하거나 임의의 Hadoop 비트 세트를 가질 수는 없습니다.

perf 관점에서 볼 때 HDInsight는 IaaS VM과 비슷한 모든 Azure 노드 크기에 배포 할 수 있습니다 (이번 주에 출시 된 새로운 기능). BLOB 효율성에 대한 질문에, 당신은 두 가지를 모두 시도해보고 자신이 생각하는 것을보아야합니다. BLOB 저장소에 대한 좋은 점은 더 경제적 인 유연성을 얻을 수 있다는 것입니다. 클러스터가 데이터의 작은 덩어리에서만 실행될 필요가 있다면 방대한 양의 데이터에 작은 클러스터를 배치 할 수 있습니다 (모든 것을 HDFS에 배치하는 것과 비교할 때, 모든 데이터를 저장하기 위해 항상 실행중인 모든 노드가 필요합니다.

관련 문제