2014-10-12 2 views
0

나는 S3에서 가져온 데이터를 redshift로 직접 가져오고 S3를 EMR을 통해 redshift로 가져 오는 것에 대한 찬반론은 무엇인가? 내가이 질문을 게시하는 이유는 S3-> redshift를 선택하면 SQL을 사용하여 redshift에서 transfrom을 수행 할 수 있습니다. 다른 한편으로는 EMR을 선택하면 SQL 대신 pig/hive 또는 java를 사용하는 것을 의미합니다. 어느쪽으로 가야합니까?S3-> Redshift와 S3-> EMR-> Redshift의 차이점은 무엇입니까?

감사합니다.

답변

2

처리해야하는 데이터의 양과 하둡으로 처리 할 수있는 처리량에 따라 다릅니다. Redshift는 성능이 좋지만 너무 많은 동시 작업을 지원하지 않으므로 Redshift의 데이터 변환이 사용자의 쿼리 성능에 영향을 줄 수 있습니다. 또한 Hadoop에서는 다양한 유형의 데이터와 파일 형식을 처리 할 수 ​​있습니다. Redshift는 분명히 제한되어 있습니다.

+0

답장을 보내 주셔서 감사합니다. SNeumann,이 이유 때문에 유스 케이스를 제공해 줄 수 있습니까? – user3769827

1

S3 -> Redshift를 사용하고 있으며 성능이 매우 좋습니다. 이전 의견과 마찬가지로 트레이드 오프가 있습니다. 사용자 쿼리를 차단하고 싶지 않으면 Redshift WLM 또는 EMR을 사용하십시오. Redshift WLM에서는 프로세스가 제한되며 여기서 EMR에서는 aws 리소스에 대해 요금이 부과됩니다.

관련 문제