2013-04-05 3 views
2

Hadoop은 광범위하게 분산 된 여러 노드 (예 : 여러 사이트의 인터넷을 통해 분산 클러스터 실행)가 아닌 단일 실제 위치의 클러스터에서만 작동하도록 설계되었습니다.Hadoop은 여러 사이트에서 분산 처리에 적합하지 않습니까?

누구나 mutliple 사이트에서 Hadoop을 사용해 본 경험이 있습니까? 어떤 종류의 문제에 빠지게됩니까? 아니면 다른 프레임 워크 (예 : BOINC)로 이동하는 것이 좋습니다.

답변

3

광범위하게 분산 된 노드 집합에 대해 상대적으로 로컬 노드 집합을 실행하는 것과 다른 노드간에 많은 양의 데이터를 이동하는 데 필요한 시간이 길어질 때 차이가 있다면. 많은 양의 데이터를 처리, 결합 및 결합하는 것과 관련된 문제점이있는 경우 노드간에 많은 양의 데이터를 보내야합니다. 즉, 어떤 플랫폼을 선택 하든지 (하둡, 폭풍 등)이 문제를 처리해야합니다. BOINC 또는 다른 자원 봉사자 기반 시스템은 저렴할 수 있지만 구현시 높은 데이터 전송 비용이 발생할 수 있습니다. 또한, 노드 이질성을 혼합에 도입하여 구현을 더욱 흥미롭게 개발하고 디버그 할 수 있습니다.

그런데 hadoop과 BOINC는 매우 다른 문제를 해결하는 두 개의 매우 다른 동물입니다.

+0

이기종 시스템에서 하둡 문제에 관해 좋은 점 - 좀 더 연구 할 것입니다. 공동으로 위치한 클러스터와 분산 된 클러스터 간의 주요 차이점 인 데이터 전송에 대해 귀하의 의견을 표기하십시오. 나는 항상 그러한 경우가 될 것이라는 것을 이해합니다. 내 기본 질문은 Hadoop이 다른 분산 플랫폼보다 훨씬 나쁜지 여부입니다. (즉, 데이터 분배 등을위한 내부 프로토콜이 매우 수월합니까?). –

+0

프로토콜이 수다스러운가요? 나는 잘 모르지만 사용 빈도가 높은 오픈 소스 플랫폼이 과도하게 채팅하는 경우에 놀랄 것이다. –

+1

그 질문에 대한 확실한 답이 없으면 다른 그리드 컴퓨팅 플랫폼과 함께 [여기에서 비교] (http://www.jppf.org/forums/index.php?topic=790.0)를보고 싶을 수 있습니다. 결과보다 더 많은 질문에 대답하고 방법론을 사용하면 매우 통찰력이 있습니다. – Lolo

관련 문제