2017-05-19 3 views
0

직접 응답을 찾을 수 없어서 여기에서 물어볼 생각입니다.집계에 ETL 사용

예를 들어 AWS Glue를 사용하여 임의의 시간 범위에서 AVG, MIN, MAX 등의 데이터 해상도를 낮추는 데 사용할 수 있습니까?

- 지난 달 외부 온도의 2000+ 데이터 포인트를 감안할 때 ETL 작업을 사용하여 지난 한 달 동안 일별 평균 30 데이터 포인트로 그 해상도를 낮 춥니 다. (예를 들어, 이러한 데이터를 실제로 사용한 경우).

아이디어는 동적으로 집계해야하는 모든 개별 데이터 요소를 필요로하지 않기 때문에 차트, 그래프 등이 대형 데이터 세트의 긴 시간 범위를 더 빠르게 표시하도록 데이터의 해상도를 낮추기 위해 집계를 수행하는 것입니다. 이 차트와 그래프를 즉시 볼 수 있습니다.

필자의 연구는 ETL이 1000 대 1이 아닌 1 대 1의 데이터 변환에 사용된다고 제안합니다. ETL은 적절한 구조로 데이터를 변환하여 DB에 저장하는 데 더 많이 사용됩니다. 큰 데이터 세트.

내 집계 요구 사항을 해결하기 위해 ETL을 사용할 수 있습니까? 이것은 AWS와 Python으로 구현 된 매우 큰 규모 일 것입니다.

+2

이와 같은 작업에 AWS의 적용 가능성에 대해서는 언급 할 수 없지만 ETL에 SQL GROUP BY를 사용하여 수행하는 데이터 행 집계가 포함될 수 있음을 언급하고자합니다. AWS를 사용해야 할 의무가 없다면 상황에 따라 분명히 작동 할 수있는 다양한 Python 솔루션이 있습니다. –

+1

ETL은 특정 개념이 아니라 일반적인 개념입니다. 그것은 당신의 연구가 나타 났던 것보다 훨씬 광범위합니다. 데이터웨어 하우스에서 집계 테이블 및 차원 테이블을 유지 관리하는 것은 일반적인 ETL 시나리오이며 그 중 하나에 대해서는 거의 1 : 1입니다. – Cyrus

답변

0

ETL의 'T'는 '변환'을 나타내며 집계는 수행되는 가장 일반적인 작업 중 하나입니다. 간단히 말하자면 : ETL이 이것을 할 수 있습니다. 나머지는 특정 요구에 달려 있습니다. 드릴 다운이 필요합니까? 아마 줌에 대한 해상도가 증가할까요? 이것은 전체 설계에 영향을 미치지 만, 일반적으로 표현 계층에 대한 데이터 준비는 ETL이 사용되는 것과 정확히 같습니다.