2014-12-12 2 views
3

Oracle 데이터베이스에서 Hadoop으로 실시간으로 데이터를 수집해야한다는 요구 사항이 있습니다.오라클과 실시간 데이터 Hadoop 데이터 수집

하둡에서 이것을 수행하는 가장 좋은 방법은 무엇입니까?

+0

kimpka 또는 hadoop에 쓸 수있는 CDC 판독기입니다. 면책 조항 - 나는 striim을 위해 일합니다. – PGK

답변

0

Apache Sqoop은 hadoop HDFS에 JDBC 연결 (Oracle 지원도 포함)이있는 RDBMS에서 대량 데이터를 전송하는 데이터 전송 도구입니다.

+0

Sqoop은 실시간 전송을 지원하지 않습니다. 나는 실시간으로 hadoop에 mysql을 전송하는 텅스텐 복제 도구와 같은 것을 찾고있다. –

4

여기서 중요한 문제는 실시간으로 Oracle DB에서 데이터를 가져 오는 것입니다. 일반적으로 Change Data Capture 또는 CDC라고합니다. 완벽한 솔루션은이 부분의 수행 방법에 따라 다릅니다. 이 답변에 대한 문제가

기타 사항은 다음과 같습니다

  • 당신이 그것으로 무슨 말을하는 건가요 어떤 데이터의 대상이고?
    • 일반 HDFS 파일을 저장하고 Impala와 같은 특수 쿼리를 액세스 할 수 있습니까?
    • 다른 앱에서 사용하기 위해 HBase에 저장 하시겠습니까?
    • Storm과 같은 CEP 솔루션에 사용 하시겠습니까?
    • ...
    • 에 익숙 팀이 어떤 도구입니다
    • 당신이 함께 접착 오픈 소스 도구를 기존 및 누락 부분에 대한 코드를 작성의 DIY 방식을 원하십니까?
    • 또는 Informatica와 같은 데이터 통합 ​​도구를 선호하십니까?

      • 쉬운 : CDC로 돌아 오는

    , 그것에 세 가지 접근 방법이있다 당신이 진정한 실시간이 필요하고, 새로운 데이터를 식별 할 수있는 방법이없는 경우 필요한 데이터 대기 시간만큼 빠르게 실행되는 SQL 쿼리입니다. 그런 다음이 쿼리를 계속 실행하여 결과를 수집 할 수 있습니다. 정확한 방법은 대상, 각 청크의 크기 및 기본 도구에 따라 달라집니다.

  • 복잡한 : CDC 솔루션 롤업 : 데이터베이스 로그 다운로드, 구문 분석 일련의 삽입/업데이트/삭제를 Hadoop에 인 식합니다.
  • 비싼하십시오 CDC 솔루션을 구입, 당신이 (같은 GoldenGate 또는 Attunity)
2

@Nickolay 언급 한 것에 대한 약간의 확장을 위해이 작업을 수행하는 몇 가지 옵션이 있습니다,하지만 최고의 너무 의견을 기반으로 할 것 상태로.

Tungsten (오픈 소스)

텅스텐 플리 다른 추출기 및 부착기 다양한 모듈을 지원하는 오픈 소스 복제 엔진이다. MySQL, Oracle 및 Amazon RDS에서 데이터를 추출하고 MySQL, Oracle 및 Amazon RDS를 포함한 트랜잭션 저장소에 적용 할 수 있습니다. MongoDB와 같은 NoSQL 상점 및 Vertica, Hadoop 및 Amazon rDS와 같은 데이터웨어 하우스 상점.

Oracle GoldenGate

오라클 골든 이기종 IT 환경에서 실시간 데이터 통합 ​​및 복제를위한 포괄적 인 소프트웨어 패키지입니다. 이 제품 세트는 운영 및 분석 엔터프라이즈 시스템 간의 고 가용성 솔루션, 실시간 데이터 통합, 트랜잭션 변경 데이터 캡처, 데이터 복제, 변환 및 검증을 가능하게합니다. HDFS 용 핸들러를 제공합니다.

Dell Shareplex

SharePlex는 ™ Hadoop®로드 용 커넥터와는 ​​지속적으로 Hadoop® 클러스터에 오라클 데이터베이스의 변경 사항을 복제

. 이렇게하면 소스 테이블의 실시간 또는 거의 실시간 사본을 유지 관리하는 모든 이점을 얻을 수 있습니다.