나는 SQOOP, Hive, Pig와 같은 BigData 기술을 최근에 배우기 시작했으며 주어진 문제를 해결하기 위해 SQOOP, HiveQL 등과 같은 여러 가지 대안이 있음을 알게되었습니다. 나는 기술/도구의 선택에 대해 다소 혼란 스럽다.BigData/Hadoop 프로젝트의 일반적인 흐름?
당신이 흐름이
SSIS 것 대부분의 시간을 어떤 전형적인 마이크로 소프트 BI 프로젝트를 취할 경우 (원시 데이터를 처리하기 위해) -> SSAS는 (OLAP DB를 만들 수) -> SSRS가 (보고서를 생성). BigData/하둡 프로젝트의 전형적인 흐름 일 것입니다 무슨이 유사하게
. 내 데이터 소스가 Email Logs라고 가정합니다.
안녕하세요 Srinivasan, Thanq에게 감사드립니다. 실시간으로 데이터를 처리 할 필요가 없다고 가정합니다. 나는 단지 밤새도록 일을해야하고 나는 돼지, 하이브와 스쿠프 만 알고있다. 그럼 다음 프로세스를 따라 할 수 있습니까? - 데이터를 수집하여 처리하고 하이브에 저장합니다. 그런 다음 Sqoop이보고 목적을 위해 일부 RDBMS에 데이터를 입력하십시오. – SumanKumar
예, 돼지의 로그 파일을 처리하고 중간 출력을 생성하는 접근법을 잘 따라 할 수 있습니다 .--->이 중간 출력 파일을 사용하여 외부 테이블을 하이브로 만듭니다. ---> sqoop을 사용하여 RDBMS로 내보내기. –
고맙습니다. Srinivasan :) – SumanKumar