1

문제가 있습니다. 가져 오기 cassandra 커넥터 오류가 발생하는 동안 내가 샘플 cassandra 연결 코드를 쓸 때.Pyspark 및 Cassandra 연결 오류

은 내가

./spark-submit --jars spark-cassandra-connector_2.11-1.6.0-M1.jar /home/beyhan/sparkCassandra.py 

./spark-submit --jars spark-cassandra-connector_2.10-1.6.0.jar /home/beyhan/sparkCassandra.py 

(둘 다 오류를 준) 아래의 코드와 같은 스크립트를 시작하지만 난 잘못한 부분

import pyspark_cassandra 

ImportError: No module named pyspark_cassandra

동안 오류가 아래에 제공 무엇입니까?

참고 : 이미 cassandra 데이터베이스를 설치했습니다.

+0

에 대한 PySpark with DataFrames 문서를 참조하십시오 :

그런 다음 커넥터와 함께 작동 할 수있는 가장 좋은 방법은 다음과 같습니다하는 dataframes을 읽고 그것을 사용하는 것입니다 에서? Cassandra 커넥터의 설명서를 읽었습니까? https://github.com/datastax/spark-cassandra-connector#documentation? 그 import 문은 실제로는 그 이름을 가진 모듈이 없기 때문에 아무 곳에도 언급되지 않았다. – sgvd

답변

1

DataStax 'Spark Cassandra Connector (spark submit에 추가 한 jar 파일)와 TargetHolding의 PySpark Cassandra 프로젝트 (pyspark_cassandra 모듈 포함)를 혼합합니다. 후자는 더 이상 사용되지 않으므로 Spark Cassandra Connector를 사용해야합니다. 이 패키지의 문서는 here입니다.

를 사용하려면 촉발하기 위해 다음과 같은 플래그를 추가 할 수 있습니다 제출

--conf spark.cassandra.connection.host=127.0.0.1 \ 
--packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3 

물론 카산드라가 수신하는 IP 주소를 사용하고 사용할 필요 커넥터 버전을 확인 : 2.0.0 -M3은 최신 버전이며 Spark 2.0 및 대부분의 Cassandra 버전에서 작동합니다. 다른 버전의 Spark를 사용하는 경우 compatibility table을 참조하십시오. 2.10 또는 2.11은 Spark 버전이 빌드 ​​된 스칼라 버전입니다. 스파크 2를 사용하는 경우, 기본값은 2.11이며 2.x 이전은 2.10입니다. 당신이 import 문을 얻었 는가 경우

sqlContext.read\ 
    .format("org.apache.spark.sql.cassandra")\ 
    .options(table="kv", keyspace="test")\ 
    .load().show() 

은 자세한 내용