2010-01-21 5 views
15

Google 웹 로그 분석의 데이터 구성 방법을 알고있는 사람이 있습니까? 많은 양의 데이터를 처리하는 것이 매우 빠르며, 데이터베이스의 구조는 무엇입니까?Google 웹 로그 분석 데이터베이스

+1

Google을 위해 일하는 대부분의 개발자가 일종의 비공개 계약을했고 그것에 대해 이야기하는 것을 허용하지 않는다고 생각합니다. – Kolky

+0

아래 답변은 유익한 정보이지만 데이터를 어떻게 구성하는지 궁금합니다. 그들은 실시간지도/축소를 사용하고 있습니까, 아니면 이미 모든 점수가 미리 계산되어 있습니까? API가 복잡한 필터를 허용하고 최대 7 개의 항목을 그룹화 할 수 있기 때문에 후자가 다시 구성하는 방법은 무엇입니까? –

답변

11

AFAIK 구글 웹 로그 분석의 Urchin에서 파생 사용 가정 것입니다. 이제 애널리틱스는 Google 가족 중 일부이므로 MapReduce/BigTable을 사용하고있을 가능성이 있습니다. Google은 이전 형식의 Urchin DB를 새로운 BigTable/MapReduce와 통합했다고 가정 할 수 있습니다.

Urchin DB에 대한이 링크를 발견했습니다. 아마 그 중 일부는 아직 사용 중입니다.

http://www.advanced-web-metrics.com/blog/2007/10/16/what-is-urchin/

이 말한다 : 당신이 사용할 필요가 있기 때문에

[중략] ... 여전히 임시 좀 더 제한된 쿼리하게 데이터를보고 저장하는 전용 데이터베이스를 사용 Urchin은보다 유연한 SQL 도구 대신 도구를 개발했습니다.

http://www.urchinexperts.com/software/faq/#ques45

Urchin이 데이터베이스의 어떤 종류를 사용합니까?

Urchin은 보고서 데이터 저장을 위해 독점적 인 플랫 파일 데이터베이스를 사용합니다. 고성능 데이터베이스 아키텍처는 매우 높은 트래픽 사이트를 효율적으로 처리합니다. 데이터베이스 아키텍처의 장점 중 일부는 다음과 같습니다 : Urchin에서 약

* Small database footprint approximately 5-10% of raw logfile size 
* Small number of database files required per profile (9 per month of historical reporting) 
* Support for parallel processing of load-balanced webserver logs for increased performance 
* Databases are standard files that are easy to back up and restore using native operating system utilitiesv 

더 많은 정보를 내가 추적기와 자신의 사이트에 그들이 데이터 표준화에 대한 논의되었다가하는 데 사용

오래전

http://www.google.com/support/urchin45/bin/answer.py?answer=28737

: http://www.2enetworx.com/dev/articles/statisticus5.asp

여기서 DB의 데이터를 줄이는 방법에 대한 정보를 얻을 수 있습니다. 조사에서 좋은 시작일 수도 있습니다.

3

BigTable

구글 출판 : 외 장, 페이. "Bigtable: A distributed storage system for structured data."ACM 컴퓨터 시스템에 트랜잭션 (TOC가) 26.2 (2008 년) :

Google 웹 로그 분석, Google 금융, 오르 컷을 포함

Bigtable을 이상 육십 개 Google 제품과 프로젝트에 의해 사용되는, 는, 맞춤 검색, Writely 및 Google 어스.

관련 문제