2017-11-14 2 views
0

로컬 디스크에 스파크 데이터 프레임을 쓰고 있습니다. 다시 읽을 수 없습니다.Parquet 파일을 로컬 디스크에 쓰는 중 오류가 발생했습니다.

val path = "file:///mnt/resources/....." 
df.write.parquet(path) 
val d = spark.read.parquet(path) 

나는 다음과 같은 오류가 발생합니다 :

org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.; 

나는 독서와 벌금과 푸른 Datalake 또는 저장소에 /에서 편지를 쓰고 있지만 로컬 디스크로입니다. 누구도 동일한 문제에 직면 해 있습니까? 그것을 해결하는 방법? 나는 .csv 파일로 테스트를했는데,이 경우 파일이 존재하지 않는다고 말하면 작업자 노드에 로그인 할 때 파일을 볼 수 있습니다.

답변

1

TL : DR 로컬 파일 시스템에 쓰기는 local 모드에서만 테스트하는 데 유용합니다.

클러스터 배포를 사용할 때 쓰기에 로컬 파일 시스템을 사용하지 마십시오. 이 경우 각 실행 프로그램은 자체 파일 시스템에 기록하며 나중에 일관성있는 읽기를 수행하는 것은 불가능합니다.

+0

응답 해 주셔서 감사합니다. "일관된 읽기를 달성하는 것이 불가능합니다"에 대해 자세히 설명해 주시겠습니까? 나는 실패가 일어날 수있는 독서가 어떻게 일어나는 지 알고 싶어합니다. – justin

관련 문제