현재 한 줄당 최대 1000 개의 열과 함께 풍부한 시간 기반 데이터를 저장하고 분석하는 방법을 연구하고 있습니다. 현재 Cassandra와 Datastax Enterprise가 제공하는 Solr, Hadoop 또는 Spark와 함께 거친 부분에 대한 나의 요구 사항을 충족시키는 것 같습니다. 그러나 악마는 세부 사항에 있습니다.Cassandra + Solr/Hadoop/Spark - 올바른 도구 선택
약 1000 개의 열 중에서 약 60 개의 열이 실시간 쿼리 (웹 프론트 엔드, 사용자는 양식을 보내고 빠른 응답을 기대합니다)에 사용됩니다. 이 u 리는 하나 또는 여러 개의 GROUPBY 문으로, 수를 세는 곳입니다. 자체가 필요한 분석 기능 (NO GROUPBY)를 지원하지 않기 카산드라으로
, 나는 이러한 대안 왼쪽 해요 : 카산드라를 통해 대략 쿼리
- 및 자기 작성된 코드
- 지수 내에서 결과 집합을 필터링 SOLR와 데이터 실행 facet.pivot는
- 사용 하둡 또는 스파크 중 하나를 조회하고 첫 번째 방법은 롬고 오류를 보인다 쿼리
을 실행 s ... Solr에는 몇 가지 흥미로운 기능이 있지만 다중 필드 그룹화가 없으면 피벗을 사용해야합니다. 이것이 좋은 방법인지, 좋은 방법인지는 모르겠지만 ... 마지막으로 Hadoop과 Spark가 있습니다. 이전에는 실시간 쿼리에 적합하지 않은 것으로 알려져 있었지만 이후의 새롭고 생산 준비가되지 않은 제품이었습니다.
그래서 어떤 방법으로 가야합니까? 여기에 모두 맞는 것은 없지만 한 가지 길을 가기 전에 약간의 피드백을 얻고 싶습니다. 어쩌면 나는 복잡한 생각하고 또는 내 기대가 너무 높은 : S 미리
감사합니다,
을 아르 멘
당신이 전리품을 가지고가는 경우에 가
하이의 부하에서 우리를 절약 솔루션에 동의, 내가 알고 그냥 궁금 해요 특별한 전략을 사용했다면, 결국, 제발? 감사. – tarilabs
불행히도, 아니오. 프로젝트가 중간에 변경 되었기 때문에 부분적으로 ... 내 게시물 이래로 Solr과 Spark은 많은 업데이트를 받았습니다. Solr 방식은 색인이 손상되지 않은 상태에서 잘 작동합니다 ... 반면에 Spark은 Hadoop보다 잘 수행해야하지만 시간을 확인하지 않았습니다. – Arman