2014-02-18 2 views
-9

현재 저는 비즈니스 인텔리전스 및 빅 데이터 분야의 프로젝트를 진행하고 있습니다. 정직하고 신빙성이있는 2 가지 영역이 있습니다.비즈니스 인텔리전스에서의 불꽃

저는 MongoDB를 사용하여 Hive Datawarehouse를 만들고 Pentaho와 같은 비즈니스 인텔리전스 플랫폼과 연결할 계획이었습니다. 내가 Spark를 연구하면서 Sark 모듈에 관심을 갖게 된 이유는 메모리 내 기능과 쿼리 수행 중 성능이 향상 되었기 때문입니다.

필자는 Hive를 Pentaho에 연결할 수 있다는 것을 알고 있지만 필자가 성능을 위해 상어 쿼리를 사용할 수 있는지 궁금한 점이 있습니까? 그렇지 않은 경우 다른 BI 플랫폼에 대해 알고있는 사람이 있습니까?

내가 말했듯이 나는이 분야에서 꽤 새롭다. 그래서 나에게 어떤 개념이 섞여 있고 바보 같은 뭔가를 말하고있는 좋은 기회가 있기 때문에 자유롭게 나를 교정해라.

답변

0

MongoDB를 사용하여 Hive 또는 MongoDB Datawarehouse를 사용하여 Hive Datawarehouse를 구축해야한다고 생각합니다. 어떻게 혼합 할 것인지 이해하지 못했지만 어쨌든 질문에 답하려고 노력할 것입니다.

일반적으로 BI 도구 용으로 원하는 DB (예 : 하이브) 용 JDBC 드라이버를 구성하고 BI 도구는 해당 JDBC 드라이버를 사용하여 데이터를 가져옵니다. 드라이버가 DB에서 데이터를 가져 오는 방법은 BI 도구에서 완전히 투명합니다.

따라서 Hive, Shark 또는 JDBC 드라이버와 함께 제공되는 다른 DB를 사용할 수 있습니다.

하이브 :

나는 옵션이 방법으로 요약 할 수있는 가장 완벽한 기능 세트를, 가장 호환 도구입니다. 평범한 데이터에 사용할 수 있습니다. 또는 ETL로 ORC 형식으로 데이터를 변환하여 성능을 향상시킬 수 있습니다.

임팔라 : 하이브보다 빠르다고 주장하지만 완전한 기능 집합은 적습니다. 평범한 데이터에 사용할 수 있습니다. 또는 성능을 향상시키는 파켓 형식으로 데이터를 ETL 할 수 있습니다.

상어 : 최첨단, 아직 주류 아닙니다. 성능은 클러스터의 RAM에 저장할 수있는 데이터의 비율에 따라 다릅니다.

+0

네, 제가 알고 싶었던 것 같습니다. Hive와 Mongodb에 따르면 Hive는 단지 hadoop에 구축 된 쿼리를위한 Datawarehousing 소프트웨어이고 데이터 자체는 Mongodb에있을 것이라는 것을 이해했습니다. 이 기사에서 언급 한 내용과 마찬가지로 http://www.mongodb.com/press/integration-hadoop-and-mongodb-big-data%E2%80%99s-two-most-popular-technologies-gets-significant – user3323032

0

우선 상어는 스파크 SQL에 흡수되었습니다. SparkSQL은 JDBC/ODBC 커넥터를 제공합니다. 그렇게하면 대부분의 기존 플랫폼과 통합 할 수 있습니다.

관련 문제