2014-03-30 4 views
5

약 10 분 전에 Google BigQuery를 사용하기 시작했습니다. 데이터를 저장하는 데 사용하는 기본 아키텍처를 알고 있는지 궁금합니다. 예를 들어, 차세대 BigTable 인프라 스트럭처입니까?Google BigQuery 기본 아키텍처

또한 인덱스, 인덱스 재 구축 등을 위해 어떤 전략을 사용하고 있는지 명확하게 알 수 있습니까? 나는 이것이 완전히 끝났는지 여부를 분석하려고하고 있습니다.이 시점에서 데이터가 끝날 때까지 진행되는 작업을 100 % 확신 할 수 있거나 블랙 박스 영역에 "일이 제대로 작동합니다" "?

답변

16

인덱스가 없습니다 ... 모든 쿼리는 테이블 스캔입니다. 쿼리 아키텍처는 here으로 설명됩니다. 귀하의 데이터는 Colossus (GFS의 후계자)에 ColumnIO라고하는 독점적 인 컬럼 형식으로 저장됩니다. Colossus는 데이터 센터 내의 데이터를 복제하고 Google 데이터 센터가 오프라인이 되어도 데이터를 다른 지역에 복제하여 사용할 수 있도록합니다. 데이터가 일시적으로 Bigtable을에 저장 될 수 있지만

는 모든 데이터가 거상의 장기 저장, 특정 질문에

  • 대답하기 위해 (지금!).
  • bigquery에 추가 된 새로운 데이터는 안 전할 때 (즉, 영구 저장 장치에 기록 될 때마다) 암호화됩니다. 또한 네트워크를 통해 전송되면 암호화됩니다.
  • 언급 한대로 색인이 없으므로 색인을 다시 작성하기위한 전략이 없습니다. 테이블에 데이터를 추가하는 방법에 따라 테이블이 병합 될 수 있으므로 기본 파일을보다 효율적으로 다시 작성해야합니다.
  • 거상은 광범위한 서비스에서 Google 데이터의 막대한 양을 기반으로하며, ColumnIO는 Google의 표준입니다. 나는이 두 기술이 성숙해질 것이라고 부탁했다.
  • 그러나 블랙 박스로 간주해야합니다. 여기 세부 정보는 Google의 성숙한 아키텍처 나 아키텍처의 스토리지 시스템이 변경 될 때 변경 될 수 있습니다. 하지만 항상 정상적으로 작동해야합니다 (물론 SLA 경고 내에서)

BigQuery가 작동하는 방식이나 효과적으로 사용하는 방법에 대한 자세한 내용은 여기에 뻔뻔한 플러그가 있습니다. 우리의 book은 6 월 중에 만기가 될 예정입니다.

+0

요르단의 통찰력. 응답 해 주셔서 감사합니다. 나는 색인의 부족이 꽤 매혹적이라고 생각한다. 내 "성숙한"의견에 관해서는 고객이 자신의 데이터에 대해 가질 수있는 통제 수준에 대해 묻는 것이 좋을 것입니다. 차라리 Google 왜건에 다리를 쥐고 손가락을 들지 않고도 건축 개선으로 이익을 얻는 아이디어를 좋아합니다. 나는 그것이 많은 엔터프라이즈 아키텍트와 CTO, 금융계 사람들에게 커다란 판매 포인트가 될 것이라고 생각합니다. –

관련 문제