2012-02-07 3 views
2

MySql 서버와 같이 HDFS가 아닌 다른 저장소를 제공 할 때 Hadoop의 Map/Reduce 부분의 데이터 지역성 기능은 어떻게됩니까? 즉, Hadoop Map/Reduce가 데이터 지역을 사용하여 데이터가있는 동일한 노드에서 맵 작업을 실행하려고하지만 데이터가 SQL 서버에 저장되면 태스크 노드에 로컬 데이터가 없습니다. 모든 데이터는 SQL Server 노드에 있습니다. 그렇다면 데이터 지역성을 잃어 버리는가 아니면 데이터 지역성의 정의가 변하는가? 그것이 바뀌면 새로운 정의는 무엇입니까?HDFS를 사용하지 않을 경우의 데이터 지역

+0

하둡 중 어느 부분입니까? MapReduce? –

+0

질문을 이해할 수 없습니다 !! – Debaditya

+0

질문을 업데이트했습니다. 다행히도 지금은 더 분명합니다. – iCode

답변

3

데이터가 클러스터에없는 경우 데이터 위치가 없습니다. 모든 데이터는 원격 소스에서 복사해야합니다. 이는 HDFS의 데이터가 포함 된 노드에서 작업을 실행할 수없는 경우와 같습니다. S3, HBase 및 DB를 포함한 원격 소스를 사용하는 여러 입력 형식이 있습니다. HDFS에 데이터를 넣을 수 있다면 좋습니다. 나는 자주 정기적으로 소량의 데이터를 원격 소스로 Mongo를 사용하는데, 나는 그 결과에 만족하고있다.

+0

답변 해 주셔서 감사합니다. 소량의 데이터를 의미하는 것에 대해 나에게 약간의 아이디어를 주시겠습니까? 또한이 작은 게임을 실행하는 데 얼마나 많은 동시 매퍼를 사용할 수 있습니까? 나는 단지 전체적인 그림을 얻고 싶다. – iCode

+0

가장 큰 테이블은 아마도 Mongo에서 20MB입니다. 나는 단지 매퍼를 사용한다. 얼마나 많은 매퍼가 당신의 샤딩에 의존 할 것입니다. https://github.com/mongodb/mongo-hadoop을 살펴보십시오. –

+0

이 크기는 네트워크 대역폭으로 제한됩니다. –

관련 문제