2016-08-25 1 views
0

hadoop에서 데이터 파이프 라인을 만들어야합니다. 데이터 가져 오기, 내보내기, 데이터 정리를위한 스크립트가있어 파이프 라인에서 설정해야합니다.데이터 파이프 라인 생성에 사용할 수있는 다양한 도구

데이터 가져 오기 및 내보내기 일정에 Oozie를 사용하고 있지만 데이터 정리 프로세스에도 R 스크립트를 통합해야합니다.

나는 송골매가 동일한 것을 위해 본다.

  1. falcon in cloudera를 설치하는 방법은 무엇입니까?
  2. hadoop에서 데이터 파이프 라인을 생성하는 데 사용할 수있는 다른 도구는 무엇입니까?
+0

oozie의 쉘 조치에서 R을 호출 할 수 있습니다. – abhiieor

+0

코드를 당신이 필요로하는 경우 '수출 엔진 = $ (1) 수출 hive_db = $ 2 수출 RCODE = NeighborGroupingState.R RSCRIPT --vanilla $ {RCODE} $ 1 $ 2 --hiveconf tez.credentials.path = $ {HADOOP_TOKEN_FILE_LOCATION} --hiveconf mapreduce.job.credentials.binary = $ {HADOOP_TOKEN_FILE_LOCATION}' – abhiieor

답변

1

2)이 post on linkedin 이후 많이 성장했습니다 그것은 oozie를 대체하는 아주 가까이, 호튼 웍스에서 nifi 답변을 유혹하고있다. 이 답변을 쓰고있을 때 oozie와 nifi의 차이점은 그들이 실행하는 장소입니다. 외부 클러스터의 nifi와 hadoop의 oozie.

관련 문제