2016-06-13 2 views
2

Hadoop에서 SAP Hana로 데이터를로드해야하는 요구 사항이 있습니다. 나는 이미 MySql, DB2 및 몇몇 다른 RDBMS에서 Spark과 함께 작업했으며 버전 1.5.0 이상의 HSBC Spark Data 프레임 API를 사용하여 Cassandra와 Hive를 사용하여로드했지만 Hana는 사용하지 않았습니다. Hana에서 수정하지 않고도 그렇게 할 수 있습니다. 어떤 식 으로든 Hana 설치를 만질 수는 없기 때문입니다.Spark Vora 통합없이 Spark를 통해 Hana 테이블을로드해야합니다.

답변

0

하둡 쪽에서 머물기를 원하면 Sqoop을 사용할 수 있습니다.

하이브 어댑터가있는 SAP BusinessObjects Data Services도 정상적으로 작동합니다.

+0

하이브에서 데이터를 추출하여 하나 서버에 복사 한 다음 HDBSQL 명령을 사용하여 파일을로드하는 파일 기반 접근 방식이 이미 있습니다. 이 방법은 매우 길고 종종 효율적이지 않습니다. Sqoop이 도움이되지 않습니다. SAP Business Objects 데이터 서비스에 대한 더 많은 통찰력을 제공 할 수 있습니다. 우리가 하나 설치로 놀아 볼 수있는 많은 제약이 없으므로 외부에서 뭔가를 사용하여로드해야합니다. – Shaad

+0

나는 당신이 당신의 코멘트의 전반부에 대해 int라고 말하는지 잘 모르겠습니다. Sqoop은 파일에 대한 사전 추출없이 Hive 데이터를 직접 읽을 수 있습니다 (실제로 Hive 자체는 app/hive/warehouse 또는 비슷한 항목에서 정리 된 파일을 읽는 인터페이스 일뿐입니다). 그런 다음 Sqoop은 JDBC를 사용하여 HANA 테이블에 직접 데이터를 씁니다. SAP Data Services 경로는 비슷합니다. Data Services는 하이브 어댑터를 사용하여 하이브에서 데이터를 읽은 다음 JDBC를 사용하여 HANA에 씁니다. 성능은 거의 동일하며 이러한 옵션 중 하나도 HANA 변경이 필요하지 않습니다. – Roman

+0

글쎄, 거기에 많은 비즈니스 제약 조건이 내 짧은 요구 사항에 관련된, 나는 데이터를 처리하고 하나로드 할 스파크를 사용해야합니다. 처리 후 Hana에 데이터를로드하는 마지막 단계는 여기에서 가장 중요한 문제이며 내가 직면 한 주요 문제입니다. – Shaad

관련 문제