2016-06-10 2 views
2

기본적으로 kafka에서 데이터를 읽고 HDFS에 주기적으로 저장하는 스파크 스트리밍 응용 프로그램을 개발 중입니다.생산시 스파크 스트리밍을 계속 실행 중입니다.

나는 YARN에서 pyspark를 실행 중입니다.

제 질문은 제작을위한 것입니다. 지금,이 같은 내 응용 프로그램을 실행

spark-submit stream.py

당신이 클라이언트에 (파이썬) 응용 프로그램을 스트리밍이 불꽃을 제공 할 예정 상상, 당신은 영원히 계속 실행하기 위해 무엇을 할 것인가? 이 파일을 제공하지 않고 "터미널에서 실행"이라고 말하면됩니다. 너무 전문가가 아닙니다.

내가하고 싶은 일은 클러스터 (또는 로컬의 프로세서)에 작업을 제출하고 콘솔에 로그를 볼 필요가 없으며 linux screen과 같은 솔루션을 사용하여 보이게 할 수 있습니다 너무 직업이없는).

스파크 스트리밍 작업을 클러스터에 영구적으로 제출하는 가장 전문적이고 효율적인 방법은 무엇입니까?

내가 모호하지 않았 으면 좋겠다. 감사!

+0

은 터미널을 닫은 후에도 영원히 계속 실행하는 데 문제가 있습니까? spark-submit -deploy-mode "cluster"를 보셨습니까 – Knight71

+0

@ Knight71, 네, 있습니다. 하지만 그건 내 문제를 해결하지 못합니다. 제 질문은 생산 단계에서 영구적으로 열어서 스파크 작업을하지 않는 것입니까? LinkedIn이나 생산 현장에서 스파크 스트리밍을 사용하는 다른 회사는 매우 훌륭한 제작 사이트 배포 방법을 가지고 있으며 이에 대해 궁금합니다. – HackCode

+0

클러스터 모드로 배포 한 후 터미널을 닫을 수 있습니다. 스트리밍은 문제없이 실행됩니다. – Knight71

답변

0

jar 업로드 및 실행을위한 휴식 인터페이스를 제공하는 spark-jobserver를 사용할 수 있습니다. 설명서는 여기 spark-jobserver에서 찾을 수 있습니다.

관련 문제