2014-06-18 2 views
0

AWS S3에있는 대규모 데이터 세트가 있습니다. 이 데이터는 일반적으로 거래 데이터 (예 : 레코드 호출)입니다. 일련의 하이브 쿼리를 연속적으로 실행하여 집계를 실행하고 condtions을 필터링하여 최종 컴팩트 파일 (수백 개의 행이 최대 인 csv)을 생성합니다. 지금까지 Hive를 사용하여 수동으로 다른 쿼리를 실행해야했습니다 (AWS 등의 일부 문제로 인해 일부 쿼리가 실패하는 경우가 있기 때문에).
지금까지 수동 방법을 사용하여 지금까지 2 개월 동안 데이터를 처리했습니다.

그러나 이후 몇 개월 동안 쿼리를 하나씩 실행하는 워크 플로를 작성할 수 있어야하며 쿼리가 실패하면 다시 실행해야합니다. 이 CANT는 bash.sh 파일에서 하이브 쿼리를 실행하여 수행 할 수 있습니다 (필자의 현재 접근 방식).AWS-EMR의 ETL 자동 하이브 또는 케스케이드

hive -f s3://mybucket/createAndPopulateTableA.sql 
hive -f s3://mybucket/createAndPopulateTableB.sql (this might need Table A to be populated before executing). 

또한, 나는 내 문제에 대한 해결책이 될 수 있는지 궁금 캐스 케이 딩에서 찾고있다 그리고 경우에 맞게 수있는 다국어를 가지고있다. AWS 생태계와 어울리는지 확실하지 않습니다.

최상의 솔루션은 하이브 쿼리 워크 플로 프로세스가 있으면 최적 일 것입니다. 다른 옵션은 내가 가지고있는 생태계에서 무엇이 있습니까?

편집 됨 : 나는 이제 Oozie를보고 있지만, emr에서 설정하는 문제는 많지 않습니다.

당신이해야 할 구성 할 수 있습니다

AWS 데이터 파이프 라인이 쉽게 내결함성, 반복, 고 가용성 복잡한 데이터 처리 워크로드를 만들 수 있습니다 : :(

답변