2012-10-26 5 views
0

동일한 알고리즘 (다른 인수)을 동시에 1000 개 이상 서로 다른 버전으로 실행하려면 하둡이이 상황에서 성능을 향상시킬 수 있습니까? 현재 Hadoop에 대한 지식이 없으므로 질문이 멍청한 것처럼 보일 수 있습니다. 하둡이 이것에 관해 뭔가 할 수 있는지 알고 싶습니다. 어떻게 해야할지 알 필요가 없습니다.Hadoop은 1000 개 이상의 다른 매개 변수를 가진 동일한 알고리즘을 동시에 실행하고자 할 때 무엇을 할 수 있습니까?

답변

0

아니요. 같은 종류의 작업이 동시에 실행되는 것은 신경 쓰지 않기 때문입니다. OS가 입력을 캐시하려고하기 때문에 성능이 약간 향상됩니다. 그러나 일반적으로 프레임 워크는 이러한 상황을 최적화하지 않습니다.

하둡은 이러한 종류의 작업을 위해 만들어지지 않았기 때문에 하둡으로 좋은 성능을 얻을 수 있을지 의심 스럽습니다.

+0

도움을 주셔서 감사합니다. 매우 도움이됩니다. – Benson

0

당신은 하둡에 대해 잘못된 생각을하고 있습니다. Hadoop을 사용하면 데이터 집약적 인 작업에서 분산 컴퓨팅을 사용할 수 있다는 장점과 장점이 있습니다. 즉, 많은 양의 데이터 (수 테라 바이트에서 수 페타 바이트까지)에 대해 상대적으로 작고 간단한 처리량을 처리 할 때 탁월한 성능을 발휘합니다.

Hadoop을 고려할 때 질문은 "데이터가 넉넉합니까?" 그렇다면, 그것은 당신을 위해 일할 수 있습니다. 대답은 '아니오'인 것처럼 보이며 동시 처리에 사용하고 싶습니다. 이 경우 귀하를 대신 할 수있는 방법이 아닙니다.

+0

도움을 주셔서 감사합니다. 매우 도움이됩니다. – Benson

0

당신은 hadoop으로 할 수 있습니다. 그 기능의 일부인 분산 된 작업 스케줄링을 통해서만 이익을 얻고 나머지는 이익을 얻지 못합니다.

기술적으로 다음과 같이 제안합니다. a) 각 매개 변수 집합을 단일 입력 분할로 만듭니다. b) 각 매퍼가 입력에서 매개 변수를 읽고 HDFS에서 직접 데이터를 읽도록 (또는 분산 캐시에서).

얻을 수있는 것 - 클러스터를 통한 부하 분산, 실패한 작업 다시 시작.

관련 문제