2016-06-12 3 views
0

DataSax Academy에서 Cassandra 비디오 중 하나를 시청하고있었습니다. 그들이 많이 이야기하는 개념 중 하나는 쿼리 기반 모델링입니다. 이는 KillrVideo 예제에서와 같이 쿼리를 선행 적으로 파악한 경우에 유용합니다.쿼리 기반 모델링 및 빅 데이터

그러나 대용량 데이터의 경우 분석가가 5 개월 또는 1 년 동안 데이터를 어떤 유형의 쿼리를 수행하는지 거의 알지 못한다고 생각하는 유일한 사람이 아니기를 바랍니다.

이 경우 데이터를 저장하는 가장 좋은 방법은 무엇입니까? 내 생각 엔 그런 데이터에 대해 고급 질의를하면 Spark에 데이터를로드하게 될 것입니다. 그러나 검색시 운영상의 문제 및 문제를 피하기 위해 보관시 고려해야 할 사항은 무엇입니까? 어떤 접근 방법이 덜 문제가 되는가?

답변

0

카산드라는 분석 유스 케이스의 데이터베이스이지만 Ad-Hoc Analaytics (항상 하나의 보고서 만이 쿼리는 다시 수행되지 않습니다)에 대한 데이터베이스는 아닙니다.

이 사용 사례의 경우에는 더 나은 옵션 인 하프 루프 클러스터가 필요합니다. (아마도 엉뚱한쪽에 parquete) 질의가 계속 반복해서 수행되는 것을 보게된다면, Cassandra는 당신의 친구입니다. 일반적으로 Cassandra를 사용 사례의 50-70 %를 사용할 수 있습니다. 열 키와 보조 indizies를 사용하면 실제로 광범위한 쿼리를 수행 할 수 있습니다. 애널리틱스 녀석에게 가서 필요한 것을 물어보십시오. 다음 : 테이블 만들기 :