2017-09-21 1 views
1

Apache Spark에서 다음 구조의 파일을 읽고 싶습니다.구분 기호 csv reader spark

628344092\t20070220\t200702\t2007\t2007.1370 

구분 기호는 \ t입니다. spark.read.csv()를 사용하면서 어떻게 구현할 수 있습니까?

csv는이 파일을 읽는 데 시간이 오래 걸리기 때문에 판다를 사용하기에는 너무 큽니다. 비슷한 방법이 있습니까

pandas.read_csv(file, sep = '\t') 

고마워요!

답변

2

delimiter 대신 spark.read.option("delimiter", "\t").csv(file) 또는 sep을 사용하십시오. 말 그대로 \t하지 탭 특수 문자의 경우

는 사용을 두 번 \ : spark.read.option("delimiter", "\\t").csv(file)

+0

spark.read 또는 아무것도의 문서를 확인할 수있는 웹 사이트가 있습니까? 답변 해주셔서 감사합니다! :) – inneb

+1

CSV 지원은이 프로젝트의 병합입니다 : https://github.com/databricks/spark-csv 그것은 몇 가지 문서가 있습니다. 개인적으로 코드를 확인하고 있습니다. :) –