2014-06-18 5 views
0

나는 SQOOP, Hive, Pig와 같은 BigData 기술을 최근에 배우기 시작했으며 주어진 문제를 해결하기 위해 SQOOP, HiveQL 등과 같은 여러 가지 대안이 있음을 알게되었습니다. 나는 기술/도구의 선택에 대해 다소 혼란 스럽다.BigData/Hadoop 프로젝트의 일반적인 흐름?

당신이 흐름이

SSIS 것 대부분의 시간을 어떤 전형적인 마이크로 소프트 BI 프로젝트를 취할 경우 (원시 데이터를 처리하기 위해) -> SSAS는 (OLAP DB를 만들 수) -> SSRS가 (보고서를 생성). BigData/하둡 프로젝트의 전형적인 흐름 일 것입니다 무슨이 유사하게

. 내 데이터 소스가 Email Logs라고 가정합니다.

답변

0

그것은 실제로 요구 사항과 기술의 어떤 세트 당신이 무슨에 따라 달라집니다. 제 생각에는 여러 가지 방법으로 전자 메일 로그를 처리 할 수 ​​있습니다. 수로 싱크 HDFS와 같이 수로 ---> 저장 로그를 사용하여 소스에서

옵션

  1. (니어 실시간) 스트림 이메일 로그 ---> 돼지 또는 하이브를 사용하여 로그를 분석 할 수 있습니다.
  2. (실시간) 스트림 이메일 로그 폭풍 분출 사용 ---> 폭풍 볼트의 프로세스 로그 ---> 그들이 finnaly 더보고 및 분석되는 NoSQL 데이터베이스 인 저장합니다.

그것을 할 수있는 여러 가지 방법이 있습니다. 요구 사항에 적합한 스킬 세트를 기반으로 결정할 수 있습니다.

+0

안녕하세요 Srinivasan, Thanq에게 감사드립니다. 실시간으로 데이터를 처리 할 필요가 없다고 가정합니다. 나는 단지 밤새도록 일을해야하고 나는 돼지, 하이브와 스쿠프 만 알고있다. 그럼 다음 프로세스를 따라 할 수 있습니까? - 데이터를 수집하여 처리하고 하이브에 저장합니다. 그런 다음 Sqoop이보고 목적을 위해 일부 RDBMS에 데이터를 입력하십시오. – SumanKumar

+0

예, 돼지의 로그 파일을 처리하고 중간 출력을 생성하는 접근법을 잘 따라 할 수 있습니다 .--->이 중간 출력 파일을 사용하여 외부 테이블을 하이브로 만듭니다. ---> sqoop을 사용하여 RDBMS로 내보내기. –

+0

고맙습니다. Srinivasan :) – SumanKumar