0
일부 json 데이터를 정리하려면 https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/dealing_with_bad_data.html의 조언을 따르고 있습니다.SparkSession을 사용하여 Json 라인의 데이터 세트를 Dataframe으로 변환
그러나 안내서가 오래되었고 sparkSession
을 사용하여 데이터 세트를로드하고 json을 구문 분석하려고합니다.
spark.read.text('file.json').as[String].map(x => parse_json(x))
그래서 나는 는 내가 어떻게 데이터 세트에서 JSON의 행을 읽어 않는 대신
RDD[String]
의
Dataset[String]
으로 끝났다?
이 spark.read.text ('file.json')를 시도 JSON 파일을 읽고 사람의 데이터 세트에 매핑됩니다.지도를 (X => parse_json (X)). RDD – Pushkr
@Pushkr 예, 작품 – user113531