Csv 파일에서 Datalake로 데이터를 가져 오는 자동화하는 가장 좋은 방법

csv 파일에서 데이터를 가져 와서 HDFS로 가져와야합니다. 그런 다음 Hbase로 이동하고 데이터 마트 (sqlServer)로 데이터를 집계합니다. .Csv 파일에서 Datalake로 데이터를 가져 오는 자동화하는 가장 좋은 방법

나는 어떤 코딩 리틀

출처

2017-09-12 rnside

필요 (자바를 사용하거나 도구를 hadoops)이 프로세스를 자동화 할 수있는 가장 좋은 방법을 알고 싶습니다? 특별한 순서없이

Talend 오픈 스튜디오
Streamsets 데이터 수집기
아파치 Nifi

에서 설치 당신에게 카프카 클러스터를 할 수 있습니다 가정하면, 카프카 연결

당신이 원하는 경우에 시도 할 수 있습니다 아마 스파크. 그렇지 않으면 좋아하는 언어를 선택하십시오. 당신은 원시 HDFS 데이터가 필요하지 않은 경우, 당신은 내가 다시 위의 의견을 반향 것 HBase를

출처

2017-09-13 01:32:07

들으 @의 cricket_007을 대답. "왜 당신이 hbase에 직접 갈 수없는 이유"로 무엇을 의미하는지 말해 주시겠습니까? – rnside

CSV를 구문 분석하고 Hbase 테이블에 쓰는 코드를 작성하십시오. hbase는 이미 hdfs 데이터를 통해 있으므로 hdfs에 넣고 Hbase에로드 할 필요가 없습니다. –

사실, 동일한 데이터가 필요하고 추출해야하는 다른 애플리케이션이있을 것입니다. hdfs에서 직접. 내 경우에만베이스가 필요합니다. – rnside

에 직접로드 할 수 있습니다 Oozie

를 통해 작업을 예약합니다. Kafka Connect는 Apache Kafka의 일부입니다. 이것으로 구성 파일을 사용하여 소스에서 스트리밍하면 KSQL을 사용하여 파생/풍부/집계 된 스트림을 생성 한 다음 HDFS/Elastic/HBase/JDBC/etc 등에 스트리밍 할 수 있습니다.

목록이 있습니다. 카프카 연결 커넥터 here.

이 블로그 시리즈는 기본을 통해 안내 :

출처

2017-09-14 07:56:47

Thx Robin, 나는 kafka connctors에 관해 읽기 시작했으며 쉽고 저렴합니다. 나는이 부분을 짚어보고 무슨 일이 일어나는지 보게 될 것이다. Thx 다시 좋은 블로그 btw;) – rnside

Csv 파일에서 Datalake로 데이터를 가져 오는 자동화하는 가장 좋은 방법

답변

관련 문제