는 여기 "fN"
& 일반적인 열 "c1"
및 "c2"
이 c는 파일을하지만, 그들 중 일부는 다른 열이있을 수도스파크에서 쪽매 파일을 어떻게 투영합니까?
val sqc = new org.apache.spark.sql.SQLContext(sc)
val data = sqc.parquetFile("f1,f2,f3,f4,f5")
로 Parquet files에서 데이터 세트를로드합니다.
따라서, 나는
data.registerAsTable("MyTable")
을 할 때 나는 오류를 얻을 :
java.lang.RuntimeException: could not merge metadata: key pig.schema has conflicting values
질문은 : 는 어떻게 두 열이있는 단일 테이블 에 그 마루 파일을받을 수 있나요?
즉, 방법 그 I 프로젝트를합니까?
"fN"
을 하나씩로드하고 프로젝트 한 다음 을 병합하여 unionAll
을 병합하는 것이 합리적 인 것처럼 보입니다.
필자는'tweetsRDD.reduce + unionAll' 전에 한 걸음 더 나아가'parquetFiles'에서 불필요한 열을 모두 삭제할 것입니다. 어떻게해야합니까? – sds
나는 havent 같은 시도했지만 예외를 얻을 것이라고 생각합니다. 나는 여전히 대체 방법을 찾고 너에게 돌아 가려고 노력할 것이다. –