2013-09-26 2 views
-1

우리는 조직에서 Hadoop과 Hive를 설정하고 있습니다. 또한 데이터 생성 도구로 생성 된 샘플 데이터를 갖게됩니다. 데이터는 약 1TB가 될 것입니다. 내 질문은 - 그 데이터를 하이브 및 하둡으로로드해야합니다. 이것을 위해 내가 따라야 할 과정은 무엇입니까?플랫 파일 또는 기존 데이터베이스에서 하이브로 데이터로드

HBase를 Hadoop과 함께 설치하게됩니다. 우리는 지금 SQL Server에있는 동일한 데이터베이스 디자인을 생성해야합니다. 그러나 Hive를 사용합니다. Cz이 데이터가 하이브에로드 된 후에 Business Objects 4.1을 프런트 엔드로 사용하여 보고서를 만들려고합니다. 하이브에 샘플 데이터를로드하는 것이 목표입니다. 최대한 빨리 모든 작업을 수행하고 싶습니다.

+1

그리고이 일에서 당신을 붙잡고있는 것은 무엇입니까? – Tariq

+0

이것은 프로그래밍 질문이 아닙니다. 당신의 구체적인 문제는 무엇입니까? –

답변

0

첫 번째 경우에는 hdfs에 데이터를 넣어야합니다.

  1. 전송은 클라이언트 노드에 데이터 파일 (들) (응용 프로그램 노드)
  2. 는 파일이 엉 (HDFS DFS 저것 집어 넣어 ...)
  3. 는 HDFS를 가리키는 외부 테이블을 만들 파일 시스템을 배포 넣어 당신이 그 파일들을 업로드 한 디렉토리. 귀하의 데이터는 어떤 방식으로 구조화되어 있습니다. 예를 들어 세미콜론 기호로 구분됩니다.
  4. 이제 SQL 쿼리로 데이터를 조작 할 수 있습니다.

두 번째 경우에는 HBaseStorageHandler (https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration)를 사용하여 다른 하이브 테이블을 만들고 Insert 문을 사용하여 첫 번째 테이블에서로드 할 수 있습니다.

이 정보가 도움이되기를 바랍니다.

1
  • 먼저 당신이 즉 당신의 HDFS 디렉토리 데이터를 섭취 위치를 가리키는, HDFS에
  • 사용 하이브 외부 테이블 데이터를 섭취.
  • 하이브에서 만든 테이블의 데이터를 모두 쿼리하도록 설정되었습니다.
  • 행운을 비네.
관련 문제