Cassandra + Solr/Hadoop/Spark - 올바른 도구 선택

현재 한 줄당 최대 1000 개의 열과 함께 풍부한 시간 기반 데이터를 저장하고 분석하는 방법을 연구하고 있습니다. 현재 Cassandra와 Datastax Enterprise가 제공하는 Solr, Hadoop 또는 Spark와 함께 거친 부분에 대한 나의 요구 사항을 충족시키는 것 같습니다. 그러나 악마는 세부 사항에 있습니다.Cassandra + Solr/Hadoop/Spark - 올바른 도구 선택

약 1000 개의 열 중에서 약 60 개의 열이 실시간 쿼리 (웹 프론트 엔드, 사용자는 양식을 보내고 빠른 응답을 기대합니다)에 사용됩니다. 이 u 리는 하나 또는 여러 개의 GROUPBY 문으로, 수를 세는 곳입니다. 자체가 필요한 분석 기능 (NO GROUPBY)를 지원하지 않기 카산드라으로

, 나는 이러한 대안 왼쪽 해요 : 카산드라를 통해 대략 쿼리

및 자기 작성된 코드
지수 내에서 결과 집합을 필터링 SOLR와 데이터 실행 facet.pivot는
사용 하둡 또는 스파크 중 하나를 조회하고 첫 번째 방법은 롬고 오류를 보인다 쿼리

을 실행 s ... Solr에는 몇 가지 흥미로운 기능이 있지만 다중 필드 그룹화가 없으면 피벗을 사용해야합니다. 이것이 좋은 방법인지, 좋은 방법인지는 모르겠지만 ... 마지막으로 Hadoop과 Spark가 있습니다. 이전에는 실시간 쿼리에 적합하지 않은 것으로 알려져 있었지만 이후의 새롭고 생산 준비가되지 않은 제품이었습니다.

그래서 어떤 방법으로 가야합니까? 여기에 모두 맞는 것은 없지만 한 가지 길을 가기 전에 약간의 피드백을 얻고 싶습니다. 어쩌면 나는 복잡한 생각하고 또는 내 기대가 너무 높은 : S 미리

감사합니다,

을 아르 멘

당신이 전리품을 가지고가는 경우에 가

출처

2014-03-30 Arman

하이의 부하에서 우리를 절약 솔루션에 동의, 내가 알고 그냥 궁금 해요 특별한 전략을 사용했다면, 결국, 제발? 감사. – tarilabs

불행히도, 아니오. 프로젝트가 중간에 변경 되었기 때문에 부분적으로 ... 내 게시물 이래로 Solr과 Spark은 많은 업데이트를 받았습니다. Solr 방식은 색인이 손상되지 않은 상태에서 잘 작동합니다 ... 반면에 Spark은 Hadoop보다 잘 수행해야하지만 시간을 확인하지 않았습니다. – Arman

나는 list of companies using it 당신거야 같은 이름에, 스파크를 추천 할 것입니다 as 아마존, 이베이와 야후!. 또한 댓글에서 언급했듯이, 그것은 성숙한 도구가되고 있습니다.

당신은 Cassandra와 Solr에 대한 논쟁을 이미 했으므로, Hadoop MapReduce가 검색어에 대한 Spark뿐 아니라 왜 설명하지 않는지에 집중할 것입니다.

하둡과 맵리 듀스 은 빅 데이터에 대한 IO가 무시할 수 있다는 가정하에 하드 디스크을 활용하도록 설계 했다. 결과적으로 데이터는 적어도 두 번 -지도 단계 및 축소 단계에서 읽고 썼습니다. 이렇게하면 부분 결과가 확보되므로 실패로부터 복구 할 수 있지만 실시간 쿼리를 목표로하고 싶지는 않습니다.

Spark은 MapReduce 단점을 해결할뿐만 아니라 원하는대로 정확하게 대화식 데이터 분석에 중점을 둡니다. 이 목표는 RAM을 활용하여 주로 에 의해 달성되며 그 결과는 놀랍습니다. 스파크 작업은 보통 보다 빠르며 MapReduce보다 10 배 빠른입니다.

유일한주의 사항은 가지고있는 메모리 용량입니다. 아마도 데이터가 RAM에있는 기량이 될 것입니다.을 제공하거나 샘플링을 사용할 수 있습니다.일반적으로 데이터를 대화식으로 작업 할 때 MapReduce를 사용할 필요가 없으며 귀하의 경우에도 그렇습니다.

출처

2015-11-09 15:29:40 GallantQuail

내가 지금 일하는 곳에서 우리는 유사한 기술 요구 사항을 갖고 있으며 솔루션은 Cassandra-Solr-Spark입니다.

그래서 Cassandra 색인으로 쿼리를 "덮을"수 있습니다 (그렇지 않은 경우). Solr에 의해 처리됩니다. 테스트를 위해 & 덜 자주 쿼리 - 스파크 (스칼라, 그것의 오래된 버전으로 인해 스파크 SQL - 그것은 은행, 모든 테스트와 성숙되어야합니다, 코냑에서 소프트웨어, 아). 일반적으로

가끔 일부 클라이언트의 요청이 전혀 심각하지 말아 느낌이 있지만 내가 이상한 쿼리 :

출처

2016-03-19 11:52:39 aleck

Cassandra + Solr/Hadoop/Spark - 올바른 도구 선택

답변

관련 문제