2017-01-24 1 views
0

저는 Spark 컨텍스트를 브로드 캐스팅하고 다른 측면에서 얻고 싶은 시나리오에서 작업하고 있습니다. 다른 방법으로도 가능합니까? 그렇지 않으면 누군가 이유를 설명 할 수 있습니다.Spark Context를 브로드 캐스팅 할 수 있습니까?

도움이 매우 감사합니다.

final JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.milliseconds(2000)); final JavaSparkContext context = jsc.sc(); final Broadcast<JavaSparkContext> broadcastedFieldNames = context.broadcast(context);

여기에 내가 달성하기 위해 노력하고있어입니다. 1. 우리는 카프카를 형성하는 XML 이벤트를 가지고 있습니다. 2. xml 이벤트에는 하나의 HDFS 파일 경로 (hdfs : localhost // test1.txt)가 있습니다. 3. SparkStreamContext를 사용하여 DSTREAM을 만들고 xml을 가져옵니다. 지도 함수를 사용하여 각 xml에서 파일 경로를 읽습니다. 4. 이제 HDFS (hdfs : localhost // test1.txt)에서 파일을 읽어야합니다. 이것을 읽으려면 sc.readfile이 필요합니다. 따라서 입력 파일의 병렬 읽기를 위해 실행 프로그램에 스파크 컨텍스트를 브로드 캐스팅하려고합니다. 현재 HDFS 읽기 파일을 사용하고 있지만 병렬 읽기가되지 않습니다.

+3

이것은 불가능한 일입니다. 실행 프로그램 측에서 드라이버 조치를 시작할 수 없습니다. 아마도 근본적으로 알고리즘에 문제가 있습니다. 당신이 달성하고자하는 것을 설명하십시오. –

+0

당신은 아파치 스파크에서 행을 삭제할 수 있지만 SQL 쿼리를 실행하는 olap 엔진으로 스파크를 사용하는 경우 아파치 인큐베이터 carbondata가 업데이트 삭제 기록을 지원하고 스파크 맨 위에 빌드합니다. –

+0

안녕 얘들 아, 답장을 보내 주셔서 감사합니다 Logged . 여기 내가 성취하려고하는 것이있다. 1. 우리는 XML 형식의 Kafka 을 가지고 있습니다. 2. xml 이벤트에는 하나의 HDFS 파일 경로 (hdfs : localhost // test1.txt)가 있습니다. 3. SparkStreamContext를 사용하여 DSTREAM을 만들고 xml. 지도 함수를 사용하여 각 xml에서 파일 경로를 읽습니다. 4. 이제 HDFS (hdfs : localhost // test1.txt)에서 파일을 읽어야합니다. 이것을 읽으려면 sc.readfile이 필요합니다. 실행 파일에 대해 실행 파일에 대해 spark 컨텍스트를 브로드 캐스팅하려고합니다. 현재 우리는 HDFS 읽기 파일을 사용하고 있지만 병렬 읽기는하지 못합니까? – Aru

답변

0

당신은 아파치 불꽃을 사용하여 행을 삭제하지만 SQL 당신을 쿼리 실행 OLAP 엔진으로 불꽃을 사용하는 경우 또한 carbondata 아파치 인큐베이터를 확인 conce 업데이트하면 지원 기록을 삭제 제공하고 스파크 위에 구축 할 수

관련 문제