2014-07-14 2 views
4

우리는 apache oozie와 표준 MR 또는 MO (맵 전용) 작업을 처음으로 사용하려는 계산 프로세스에 apache spark를 통합 할 생각입니다.아파치 Oozie를 사용한 아파치 스파크 오케스트레이션

  1. 는 아파치 oozie를 사용하여 아파치 스파크 과정을 조율하는 것이 가능 : 남아 몇 가지 조사 몇 가지 질문 후

    ? 그렇다면 어떻게?

  2. 오지는 더 이상 필요하지 않거나 오케스트레이션을 자체적으로 처리 할 수 ​​있습니까?

    1. 을 작업 흐름을
    2. 가 실행 매 4 시간 실행 : 응답 할 때

    다음 시나리오을 고려하시기 바랍니다 (통일 스파크의 주요 관심사 중 하나가 될 것으로 보인다) 특정 데이터에 액세스 할 수있을 때마다 작업 흐름

  3. 작업 흐름을 트리거하고 매개 변수로 구성

미리 답변 해 주셔서 감사합니다.

+0

Oozie에 대해 많이 알지는 못하지만, 대부분의 플로우 처리가 작업 내에서 이루어지기 때문에 가능한 한 간단하게 spark에 대해 말합니다. – aaronman

+0

이 과정에서 Spark Classpath 문제가 여러 차례 실행되었습니다. Spark에 HDFS의 항아리가 보이게하려고하는 미해결 문제가 있습니다. 대신이 게시물에서 "Skip remote jar"오류와 함께 반환됩니다 : http://mail-archives.apache.org/mod_mbox/incubator-spark-user/201406.mbox/%[email protected] com % 3E 솔루션을 찾으면 다시 게시 할 예정입니다. –

+0

시도해 보지 않았습니다. https://issues.apache.org/jira/browse/OOZIE-1983 – meer

답변

3

스파크는 Oozie 4.2에서 조치 유형으로 지원됩니다 (docs 참조). 언급 한 시나리오는 일반적인 Oozie 기능입니다.

관련 문제