Oracle 데이터베이스에서 Hadoop으로 실시간으로 데이터를 수집해야한다는 요구 사항이 있습니다.오라클과 실시간 데이터 Hadoop 데이터 수집
하둡에서 이것을 수행하는 가장 좋은 방법은 무엇입니까?
Oracle 데이터베이스에서 Hadoop으로 실시간으로 데이터를 수집해야한다는 요구 사항이 있습니다.오라클과 실시간 데이터 Hadoop 데이터 수집
하둡에서 이것을 수행하는 가장 좋은 방법은 무엇입니까?
Apache Sqoop은 hadoop HDFS에 JDBC 연결 (Oracle 지원도 포함)이있는 RDBMS에서 대량 데이터를 전송하는 데이터 전송 도구입니다.
Sqoop은 실시간 전송을 지원하지 않습니다. 나는 실시간으로 hadoop에 mysql을 전송하는 텅스텐 복제 도구와 같은 것을 찾고있다. –
여기서 중요한 문제는 실시간으로 Oracle DB에서 데이터를 가져 오는 것입니다. 일반적으로 Change Data Capture 또는 CDC라고합니다. 완벽한 솔루션은이 부분의 수행 방법에 따라 다릅니다. 이 답변에 대한 문제가
기타 사항은 다음과 같습니다
, 그것에 세 가지 접근 방법이있다 당신이 진정한 실시간이 필요하고, 새로운 데이터를 식별 할 수있는 방법이없는 경우 필요한 데이터 대기 시간만큼 빠르게 실행되는 SQL 쿼리입니다. 그런 다음이 쿼리를 계속 실행하여 결과를 수집 할 수 있습니다. 정확한 방법은 대상, 각 청크의 크기 및 기본 도구에 따라 달라집니다.
@Nickolay 언급 한 것에 대한 약간의 확장을 위해이 작업을 수행하는 몇 가지 옵션이 있습니다,하지만 최고의 너무 의견을 기반으로 할 것 상태로.
Tungsten (오픈 소스)
텅스텐 플리 다른 추출기 및 부착기 다양한 모듈을 지원하는 오픈 소스 복제 엔진이다. MySQL, Oracle 및 Amazon RDS에서 데이터를 추출하고 MySQL, Oracle 및 Amazon RDS를 포함한 트랜잭션 저장소에 적용 할 수 있습니다. MongoDB와 같은 NoSQL 상점 및 Vertica, Hadoop 및 Amazon rDS와 같은 데이터웨어 하우스 상점.
오라클 골든 이기종 IT 환경에서 실시간 데이터 통합 및 복제를위한 포괄적 인 소프트웨어 패키지입니다. 이 제품 세트는 운영 및 분석 엔터프라이즈 시스템 간의 고 가용성 솔루션, 실시간 데이터 통합, 트랜잭션 변경 데이터 캡처, 데이터 복제, 변환 및 검증을 가능하게합니다. HDFS 용 핸들러를 제공합니다.
Dell ShareplexSharePlex는 ™ Hadoop®로드 용 커넥터와는 지속적으로 Hadoop® 클러스터에 오라클 데이터베이스의 변경 사항을 복제
. 이렇게하면 소스 테이블의 실시간 또는 거의 실시간 사본을 유지 관리하는 모든 이점을 얻을 수 있습니다.
kimpka 또는 hadoop에 쓸 수있는 CDC 판독기입니다. 면책 조항 - 나는 striim을 위해 일합니다. – PGK