2011-11-02 2 views
2

아파치 액세스 로그를 구문 분석하여 웹 트래픽 (페이지 조회수, 방문수, 방문수 등)에 대한 집계 된 데이터를 생성하기 위해 웹 분석 플랫폼을 개발하고 싶습니다.하둡으로 웹 분석 개발

하둡 및 순수 맵/축소 작업에서만 할 수 있습니까?

하이브를 사용하기에는 너무 잔인합니까?

답변

4

Hive 또는 Pig은 Hadoop MapReduce 작업에 대한 추상화 계층으로 MR 작업을 쉽게 만들거나 실행할 수 있습니다. 돼지와 하이브 스크립트는 쓰기 쉽고 자동으로 MR 작업으로 변환됩니다.

추상화의 모든 계층과 마찬가지로 Pig 및 Hive 스크립트는 Java에서 MR 작업보다 작성 시간이 훨씬 적지 만 약간의 오버 헤드가 있습니다. 돼지와 하이브가 점점 더 성숙 해짐에 따라 이러한 격차가 좁혀 질 것입니다.

Kevin 그는 일반적으로 돼지 스크립트가 약 5 %의 시간에 작성된 기본지도/축소 코드의 5 %라는 것을 알았습니다. 그러나 쿼리는 일반적으로 네이티브 맵/축소 작업을 수행하는 데 걸리는 시간을 110-150 % 사이에서 가져옵니다.

요약하면 Hive는 필수는 아니지만 약간의 오버 헤드로 최종 사용자를위한 MR 작업을 쉽게 만들거나 실행할 수 있습니다.

+0

대단히 감사합니다! – meletis

1

대부분의 집계는 자연스럽게 SQL에 의해 그룹화되므로 하이브는 이러한 유형의 작업에 가장 적합한 플랫폼이라고 생각합니다.
당신이 필요로하는 것 - 하이브를 두 가지로 확장하는 것입니다 :
a) 로그 형식을 읽는 SerDe.
b) IP2Country 국가별로 로그별로 그룹화 할 UDF (사용자 정의 함수).

나는이 작업을 위해 바닐라 MR 작업을 만드는 것이 합리적이라고 생각하지 않습니다. 나는 일반적으로 RDBMS로 해결되는 작업을 하이브와 함께 먼저 시도해야한다고 공식화 할 것이다.

2

체크 아웃 Datameer은 Hadoop 위에 내장 된 클릭 스트림 분석을 수행 할 수있는 사전 패키지 기능이 있습니다 ... 이미이 도구를 사용하고 있다면 Google Analytics도 지원합니다.

0

Hadoop 및 Hive 또는 Pig 패키지를 사용하여 문제를 해결하기로 결정한 경우 Cloudera 또는 IBm의 Hadoop 패키지를 다운로드 할 시간이 절약 될 수 있습니다. 그들은 Pig와 Hive를 포함한 모든 Hadoop 프레임 워크와 함께 제공되며 일반적으로 단계별 웹 인터페이스 설치 프로세스를 제공합니다.

초기 버전은 무료입니다 : 당신이 프레임 워크 자체에 그 많은 시간을 느슨하게하지 않으려면

http://www-01.ibm.com/software/data/infosphere/biginsights/ http://www.cloudera.com/content/support/en/downloads.html

, 그것은 좋은 해결책이 될 수 있습니다. 희망이 도움이됩니다!