2017-12-21 3 views

답변

2

:

하둡 분산 파일 시스템 (HDFS ™) : 응용 프로그램 데이터에 높은 처리량 액세스를 제공하는 분산 파일 시스템. 그와

, 당신은 등


스파크에서, 브로, CSV, 마루를 포함하여 어떤 형식으로 사실상 파일을 저장하는 HDFS를 사용하여, 당신은 사용 DataFrame의 형식을 지정 save 방법을 사용하여 저장 위치에있는 동안 format 방법.

포맷 (소스 : 문자열) DataFrameWriter은 [T]는는 기본 출력 데이터 소스를 지정한다. 내장 된 옵션에는 "쪽모이", "json"등이 포함됩니다.

단위 (경로 : 문자열) : 단위 지정된 경로에 DataFrame의 내용을 저장합니다.

는 또한 형식과 json(path: String), parquet(path: String) 또는 모두 같은 형식 별 방법을 사용하여 스토리지에 DataFrame의 경로를 정의하는 바로 가기를 사용할 수 있습니다.

0
  • RDD save*
    • pyspark.RDD.saveAsHadoopDataset
    • pyspark.RDD.saveAsHadoopFile
    • pyspark.RDD.saveAsNewAPIHadoopDataset
    • pyspark.RDD.saveAsNewAPIHadoopFile
    • pyspark.RDD.saveAsPickleFile
    • pyspark.RDD.saveAsSequenceFile pyspark.RDD.saveAsTex
    • pyspark.sql.DataFrame.saveAsParquetFile
    • pyspark.sql.DataFrame.saveAsTable pyspark.sql.DataFrameWriter.save
    • pyspark.sql.DataFrame.save
  • DataFrame save
    • tFile
    • pyspark.sql.DataFrameWriter.saveAsTable

마지막으로 중요한 것은 ...

  • Spark Dataframe Docs DataFrame Writer를 사용하는 방법을 더 잘 이해할 수 있습니다.
관련 문제