2012-06-04 2 views
1

큰 데이터 덤프가 있습니다. 배치 삽입을 사용하여 AWS DynamoDB 업로드 계획. 옵션 흐름 효과적인 비용 :데이터 덤프 처리를위한 DynamoDB 또는 Hive

  1. 빅 데이터 (GIB) -> DynamoDB의에 일괄 삽입 -> 쿼리 분석을위한
  2. 빅 데이터 (GIB) -> AWS S3 -> 하이브 테이블 매핑을 생성 -> EMR 하이브 분석을위한 쿼리 [Dynamo DB가없는 경우]

DynamoDB에서 EMR 또는 EC2에서 액세스하는 경우 처리량 제한이 있습니까?

답변

0

DynamoDB를 사용할 필요가 없습니다. 옵션 2로 이동하여 S3에 데이터를 업로드 한 다음 하이브 쿼리를 수행하십시오.

EMR에서 사용할 수있는 DynamoDB 읽기 용량의 양을 구성 할 수 있습니다.

0

많은 것은 하이브에서 최적화하려는 대상에 따라 달라집니다. ORC 파일을 사용하려면 DynamoDB를 조금만보고 싶을 수도 있습니다. ORC 파일을 사용하려면 데이터를 두 번로드해야합니다. 먼저 스테이징 테이블에 데이터를로드해야합니다. 그런 다음 해당 단계에서 선택하고 ORC 파일 테이블에 삽입해야합니다. 이렇게하면 효과적으로 데이터를 두 번 전달할 수 있습니다.

데이터로드를 최적화하지 않으려는 경우 @ seedhead의 응답을 자세히 볼 수 있습니다.

관련 문제