2016-06-14 8 views
1

스파크를 독립 실행 형 모드로 실행했지만 이제는 처리 할 데이터를 사용하고 싶었지만 동일한 경로의 모든 노드에서 복사해야합니다. 이제 cassandra 파일 시스템 (CFS)을 사용하여 공유합니다. 모든 노드 사이의 데이터. 그러나 스파크 작업을 실행하여 다른 노드에서 cassandra 키 공간/테이블 데이터를 사용하려면 어떻게해야합니까? 모든 노드에서 Cassandra 테이블을 액세스 가능하게 만드는 방법은 무엇입니까?cassandra 파일 시스템으로 스파크

+0

당신이 달성하기 위해 무엇을하려고하는 정교한시겠습니까? 스파크 작업이있는 데이터를 카산드라 데이터베이스에 저장합니까? 또한, 분산 데이터베이스이므로 cassandra는 복제 요소를 기반으로 모든 노드간에 데이터를 공유합니다. –

+0

3 개의 카산드라 노드 (기계)가 있는데,'sc.cassandraTable ("kv", "tb")로 스파크에서 데이터를 읽고 싶습니다. 이제 어떻게 sparkconf를 설정합니까? 'new SparkConf (true) .set ("spark.cassandra.connection.host", "어느 노드 ip")' 어떤 cassandra IP를 대체해야합니까? – Hamid

+0

쉼표로 구분 된 세 개의 IP를 모두 사용하십시오. –

답변

0

쉼표로 구분 된 초기 연락 지점 목록을 제공해야합니다. 커넥터는 cluster의 메타 데이터를 읽어서 cassandra 클러스터의 모든 노드를 찾습니다.

val conf = new SparkConf(true) 
    .set("spark.cassandra.connection.host", "192.168.123.10,192.168.123.110") 

매개 변수의 자세한 내용을 참조

- spark cassandra connector doc

관련 문제