2017-11-28 2 views
-1

일반적으로 빅 데이터의 맥락에서 데이터웨어 하우스는 Apache Hive와 같은 Hadoop 기반 시스템을 기반으로 관리되고 구현됩니다 (오른쪽).
한편, 제 질문은 방법 론적 과정에 관한 것입니다.
큰 데이터가 데이터웨어 하우스의 디자인 프로세스에 미치는 영향은 무엇입니까?
프로세스가 비슷하거나 새로운 작업을 고려해야합니까?빅 데이터웨어 하우스와 기존 데이터웨어 하우스의 차이점

답변

1

하둡은 아키텍처가 MPP 데이터웨어 하우스와 유사하지만 몇 가지 중요한 차이가 있습니다. 병렬 아키텍처에 의해 엄격하게 정의되는 대신 프로세서는 Hadoop 클러스터에 느슨하게 결합되며 각 프로세서는 서로 다른 데이터 소스에서 작동 할 수 있습니다.

데이터 조작 엔진, 데이터 카탈로그 및 저장소 엔진은 수집 점 역할을하는 Hadoop을 사용하여 서로 독립적으로 작동 할 수 있습니다. 또한 Hadoop은 구조화 된 데이터와 구조화되지 않은 데이터를 쉽게 수용 할 수 있다는 점에서 매우 중요합니다. 따라서 반복적 인 문의에 이상적인 환경이됩니다. 비즈니스 사용자는 스키마에 정의 된 좁은 구조에 따라 분석 결과를 정의하는 대신, 가장 중요한 쿼리가 무엇인지 찾아 낼 수 있습니다. 그런 다음 관련 데이터를 추출하여 빠른 쿼리를 위해 데이터웨어 하우스에로드 할 수 있습니다.

하둡 생태계는 서로 다른 시스템에서 가능한 한 많은 흥미로운 데이터를 수집하려는 동일한 목적에서 출발하지만 근본적으로 더 나은 방식으로 접근합니다. 이 방법을 사용하면 관심있는 모든 데이터를 큰 데이터 저장소 (일반적으로 HDFS - Hadoop 분산 파일 시스템)에 덤프 할 수 있습니다. 이것은 종종 클라우드 스토리지에 있습니다. 클라우드 스토리지는 저렴하고 유연하며 값싼 클라우드 컴퓨팅 성능에 가까운 데이터를 제공하기 때문에 작업에 적합합니다. 원하는 경우 Hive와 같은 도구를 사용하여 ETL을 수행하고 데이터웨어 하우스를 만들 수는 있지만 더 중요한 것은 여전히 ​​모든 원시 데이터를 사용할 수 있으므로 새로운 질문을 정의하고 모든 원시 기록 데이터에 대해 복잡한 분석을 수행 할 수도 있습니다 당신이 원하는 경우. Hadoop 툴셋은 많은 양의 값싼 상용 기계에 작업을 분할하여 큰 계산을 수행하므로 기존의웨어 하우스에서 가능한 것보다 훨씬 강력하고 추측되며 신속한 분석을 수행 할 수 있으므로 유연성과 분석력이 뛰어납니다.

관련 문제