2017-04-13 2 views
1

저는 Spark를 처음 접했고 Spark에서 Parquet이라는 복잡한 객체 (중첩 된) 또는 복잡한 jsons를 저장할 수있는 방법이 있는지 파악하려고합니다. 나는 Kite SDK에 대해 알고 있지만 Map/Reduce를 사용하고 있음을 이해합니다.복잡한 json 또는 복잡한 객체를 Spark의 마루로 저장하는 방법은 무엇입니까?

주위를 둘러 보았지만 해결책을 찾지 못했습니다.

도움 주셔서 감사합니다.

+0

예 스파크가있는 마루로 중첩 된 오브젝트를 저장할 수 있습니다. 예를 들어 데이터와 예상 결과가 있습니다. – Mehrez

+0

@Mehrez 예상 결과가 무슨 뜻인지 잘 모르겠습니다. 결과는 마루 사양 (정의 및 반복 수준) – IceMan

+0

에 의해 지원되는 중첩 구조를 이해하는 파켓 파일 일 수 있습니다. 문제가 깨끗하지 않거나 코드에 예외가 있거나 중첩 된 개체를 저장할 코드 샘플을 찾습니다. 쪽매 세공? – Mehrez

답변

1
case class Address(city:String, block:String); 
case class Person(name:String,age:String, address:Address); 
val people = sc.parallelize(List(Person("a", "b", Address("a", "b")), Person("c", "d", Address("c", "d")))); 

val df = sqlContext.createDataFrame(people); 
df.write.mode("overwrite").parquet("/tmp/people.parquet") 

이 답변은 도움이됩니다. Spark SQL: Nested classes to parquet error

그러나 찾기가 어려웠으므로 여기서 내 자신의 질문에 대답했습니다. 희망이 다른 사람이 예제를 찾고 도움이됩니다.

관련 문제