2014-09-10 2 views
1

(로컬 네트워크에있는) on-primise hadoop 클러스터에 일정량의 데이터를 가지고 있고 Amazon 클라우드 S3에 데이터가 일정량 남았습니다. 클러스터. 두 위치에서 내 데이터는 하이브 테이블에 있습니다.하이브리드 분산 쿼리가 on-primise hadoop 클러스터 및 amazon s3 hadoop 클러스터

내 로컬 hadoop 클러스터에서 하이브 쿼리를 실행하고 싶습니다.이 쿼리는 로컬 클러스터 하이브 테이블의 데이터와 아마존 s3 hadoop 클러스터의 하이브 테이블 데이터를 결합해야합니다. 내 로컬 하이브 셸에서 쿼리를 실행하는 중 두 곳의 데이터를 결합하고 결과를

내 로컬 클러스터 env에 제공해야합니다.

이 문제는 Amazon Data Pipeline에서 처리 할 수 ​​있습니까? 그렇다면, 저를 안내하십시오.

감사합니다. - 수 요도

답변

1

자동 해결 방법이 없습니다.

먼저 사내 구축 형 클러스터에서 데이터를 내보내고 AWS의 S3로 전송해야합니다. 그런 다음이 데이터를 EMR 클러스터에로드 할 수 있습니다.

데이터 파이프 라인을 사용하여 S3에 전송 된 데이터 세트에서 하이브 활동을 실행할 수 있습니다.

S3 파이프, EMR 클러스터 설정 및 하이브 활동 실행에 대한 데이터 파이프 라인 도움말의 기본 작업. 온 프레미스에서 AWS로 데이터를 전송하는 데 도움이되지 않습니다. 이 작업을 자동화해야한다면 스크립트 등 몇 가지 코드를 작성해야합니다.

+0

Attunity CloudBean에서 가능합니다. 나는 안으로보고있다. 나는 가능한 한 빨리 당신에게 돌아올 것입니다. 그것을 들여다 줘서 고마워. –

관련 문제