저는 Spark 컨텍스트를 브로드 캐스팅하고 다른 측면에서 얻고 싶은 시나리오에서 작업하고 있습니다. 다른 방법으로도 가능합니까? 그렇지 않으면 누군가 이유를 설명 할 수 있습니다.Spark Context를 브로드 캐스팅 할 수 있습니까?
도움이 매우 감사합니다.
final JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.milliseconds(2000)); final JavaSparkContext context = jsc.sc(); final Broadcast<JavaSparkContext> broadcastedFieldNames = context.broadcast(context);
여기에 내가 달성하기 위해 노력하고있어입니다. 1. 우리는 카프카를 형성하는 XML 이벤트를 가지고 있습니다. 2. xml 이벤트에는 하나의 HDFS 파일 경로 (hdfs : localhost // test1.txt)가 있습니다. 3. SparkStreamContext를 사용하여 DSTREAM을 만들고 xml을 가져옵니다. 지도 함수를 사용하여 각 xml에서 파일 경로를 읽습니다. 4. 이제 HDFS (hdfs : localhost // test1.txt)에서 파일을 읽어야합니다. 이것을 읽으려면 sc.readfile이 필요합니다. 따라서 입력 파일의 병렬 읽기를 위해 실행 프로그램에 스파크 컨텍스트를 브로드 캐스팅하려고합니다. 현재 HDFS 읽기 파일을 사용하고 있지만 병렬 읽기가되지 않습니다.
이것은 불가능한 일입니다. 실행 프로그램 측에서 드라이버 조치를 시작할 수 없습니다. 아마도 근본적으로 알고리즘에 문제가 있습니다. 당신이 달성하고자하는 것을 설명하십시오. –
당신은 아파치 스파크에서 행을 삭제할 수 있지만 SQL 쿼리를 실행하는 olap 엔진으로 스파크를 사용하는 경우 아파치 인큐베이터 carbondata가 업데이트 삭제 기록을 지원하고 스파크 맨 위에 빌드합니다. –
안녕 얘들 아, 답장을 보내 주셔서 감사합니다 Logged . 여기 내가 성취하려고하는 것이있다. 1. 우리는 XML 형식의 Kafka 을 가지고 있습니다. 2. xml 이벤트에는 하나의 HDFS 파일 경로 (hdfs : localhost // test1.txt)가 있습니다. 3. SparkStreamContext를 사용하여 DSTREAM을 만들고 xml. 지도 함수를 사용하여 각 xml에서 파일 경로를 읽습니다. 4. 이제 HDFS (hdfs : localhost // test1.txt)에서 파일을 읽어야합니다. 이것을 읽으려면 sc.readfile이 필요합니다. 실행 파일에 대해 실행 파일에 대해 spark 컨텍스트를 브로드 캐스팅하려고합니다. 현재 우리는 HDFS 읽기 파일을 사용하고 있지만 병렬 읽기는하지 못합니까? – Aru