2017-09-12 1 views

답변

1

필요 (자바를 사용하거나 도구를 hadoops)이 프로세스를 자동화 할 수있는 가장 좋은 방법을 알고 싶습니다? 특별한 순서없이

  • Talend 오픈 스튜디오
  • Streamsets 데이터 수집기 ​​
  • 아파치 Nifi

에서 설치 당신에게 카프카 클러스터를 할 수 있습니다 가정하면, 카프카 연결

당신이 원하는 경우에 시도 할 수 있습니다 아마 스파크. 그렇지 않으면 좋아하는 언어를 선택하십시오. 당신은 원시 HDFS 데이터가 필요하지 않은 경우, 당신은 내가 다시 위의 의견을 반향 것 HBase를

+0

들으 @의 cricket_007을 대답. "왜 당신이 hbase에 직접 갈 수없는 이유"로 무엇을 의미하는지 말해 주시겠습니까? – rnside

+0

CSV를 구문 분석하고 Hbase 테이블에 쓰는 코드를 작성하십시오. hbase는 이미 hdfs 데이터를 통해 있으므로 hdfs에 넣고 Hbase에로드 할 필요가 없습니다. –

+0

사실, 동일한 데이터가 필요하고 추출해야하는 다른 애플리케이션이있을 것입니다. hdfs에서 직접. 내 경우에만베이스가 필요합니다. – rnside

1

에 직접로드 할 수 있습니다 Oozie

를 통해 작업을 예약합니다. Kafka Connect는 Apache Kafka의 일부입니다. 이것으로 구성 파일을 사용하여 소스에서 스트리밍하면 KSQL을 사용하여 파생/풍부/집계 된 스트림을 생성 한 다음 HDFS/Elastic/HBase/JDBC/etc 등에 스트리밍 할 수 있습니다.

목록이 있습니다. 카프카 연결 커넥터 here.

이 블로그 시리즈는 기본을 통해 안내 :

+0

Thx Robin, 나는 kafka connctors에 관해 읽기 시작했으며 쉽고 저렴합니다. 나는이 부분을 짚어보고 무슨 일이 일어나는지 보게 될 것이다. Thx 다시 좋은 블로그 btw;) – rnside

관련 문제