내 기존 프로젝트는 kafka-spark-cassandra입니다. 이제 gcp 계정을 가지고 있고 spark 작업을 dataproc로 마이그레이션해야합니다. 내 기존 스파크 작업에서 masterip, memory, cores 등과 같은 매개 변수는 리눅스 쉘 스크립트에 의해 트리거되고 새로운 sparkConf를 생성하는 명령 행을 통해 전달됩니다.기존 kafka - spark - cassandra 프로젝트를 google-cloud-platform의 kafka - dataproc - cassandra에 배포하는 방법은 무엇입니까?
발의 conf = 새로운 SparkConf (참) .setMaster (마스터) .setAppName ("XXXX") .setJars (목록 (경로 + "/ xxxx.jar")) 은 .set ("spark.executor. 메모리, 메모리) .set ("spark.cores.max", cores) .set ("spark.scheduler.mode", "FAIR") .set ("spark.cassandra.connection.host", cassandra_ip)
1) dataproc에서 어떻게 구성 할 수 있습니까?
2) 기존의 프로젝트 인 Spark 1.3과 dataproc에서 제공 한 Spark 1.6은 호환성 문제가있을 것입니다. 어떻게 해결할 수 있습니까?
3) Kapka 및 cassandra와 연결하기 위해 dataproc에 필요한 다른 커넥터가 있습니까? 나는 couldnt한다 무엇이라도 발견한다.