2016-08-01 2 views
0

Zeppelin 노트북에서 Amazon S3에있는 avro 파일을 읽고 싶습니다. 나는 Databricks가 그것을위한 멋진 패키지를 가지고 있다고 이해합니다 spark-avro. 이 jar 파일을 클러스터로 부트 스트랩하여 작동하게하려면 필요한 단계는 무엇입니까? <console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader Amazon EMR 클러스터에 spark-avrojar 부트 스트랩

내가 this을 살펴 있었다 -

내 노트북이 쓰기

, val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")

나는 아래의 오류가 발생합니다. 아마 거기에 게시 된 솔루션은 Amazon EMR의 최신 버전에서 작동하지 않는다고 생각합니다.

누군가 포인터를 줄 수 있다면 정말 도움이 될 것입니다.

답변

0

다음은 내가 spark-avro 의존성을 연관시키는 방법입니다. 이 방법은 다른 종속성을 스파크와 연관시키는 데 사용됩니다.

  1. 스파크 버전이 spark-avro와 호환되는지 확인하십시오. 종속성에 대한 자세한 내용은 here을 참조하십시오.

  2. 내 S3 버킷에 spark-avro 파일을 넣었습니다. hdfs 또는 다른 저장소를 사용할 수 있습니다. EMR 클러스터를 실행하는 동안

  3. 는 구성에 다음과 같은 JSON을 추가 [{"classification":"spark-defaults", "properties":{"spark.files":"/path_to_spark-avro_jar_file", "spark.jars":"/path_to_spark-avro_jar_file"}, "configurations":[]}]

이이 작업을 수행 할 수있는 유일한 방법은 아니다 . 자세한 내용은 link을 참조하십시오.

관련 문제