2012-06-06 2 views
1

와 외부 데이터를 사용하는 :어떻게 아마존의 EMR 자주 묻는 질문에서 탄성 맵리 듀스

Q : 나는 아마존 S3보다 다른 곳에서 인터넷에서 내 데이터를로드하거나 수 있습니까?

예. Hadoop 애플리케이션은 인터넷이나 다른 AWS 서비스에서 데이터를로드 할 수 있습니다. 인터넷에서 데이터를로드하는 경우 EC2 대역폭 요금이 부과됩니다. Amazon Elastic MapReduce는 DynamoDB의 데이터에 하이브 기반 액세스를 제공합니다.

외부 (비 S3) 소스에서 데이터를로드하기위한 사양은 무엇입니까? 이 옵션과 관련하여 자원 부족이있는 것으로 보이며 어떤 형태로든 문서화 된 것으로 보이지 않습니다.

+0

"인터넷에서 EMR 기반 Hadoop 인스턴스로 데이터를로드하는 방법은 무엇입니까?" –

+0

@ChrisWhite 그래, 그게 내가 원하는거야. EMR을 사용하면 S3 이외의 장소에서 데이터를 가져올 수 있지만이를 수행하는 방법에 대한 설명은 없습니다. –

답변

2

"할프 방법"으로하려면 데이터 원본에 DFS를 구현하거나 소스 URL에 대한 참조를 MR 작업에 대한 입력으로 사용할 파일에 넣어야합니다.
동시에 hadoop은 코드를 데이터로 이동하는 것에 관한 것입니다. S3를 통한 EMR조차도이 관점에서 이상적이지 않습니다. EC2와 S3는 다른 클러스터입니다. 따라서 데이터 소스가 데이터 센터 외부의 phisically 인 경우 효과적으로 MR 처리를 묘사하기가 어렵습니다.

0

기본적으로 Amazon은 프로그래밍 방식으로 인터넷이나 다른 출처의 콘텐츠를 코드를 통해 액세스 할 수 있다고 말합니다. 예를 들어 HTTP 기반 클라이언트 API를 통해 Couch 데이터베이스 인스턴스에 액세스 할 수 있습니다.

+0

+1 : 그만큼 간단합니다! –

0

나는 자바에 대한 카산드라 패키지 org.apache.cassandra.hadoop라는 이름의 하나의 소스 패키지를 가지고 있으며, 당신은 AWS 엘라스틱 맵리 듀스를 실행하는 경우 카산드라에서 정보를 얻기 위해 필요한 그 안에 두 개의 클래스가 있다는 것을 알고있다.

필수 클래스 : this link-ColumnFamilyInputFormat.javaConfigHelper.java

이동 내가 무슨 말을하는지의 예를 볼 수 있습니다.

관련 문제