1
현재 Apache Spark로 첫 번째 시도를하고 있습니다. SQLContext 개체와 함께 .csv 파일을 읽으 려하지만 File이 유럽 (값 구분 기호로 사용되는 소수 구분 기호 및 세미콜론으로 쉼표)이므로 Spark에서 올바른 결과를 제공하지 않습니다. Spark에 다른 .csv 구문을 따르라고 지시 할 수 있습니까?Spark로 유럽 형식의 .csv 데이터 읽기
val conf = new SparkConf()
.setMaster("local[8]")
.setAppName("Foo")
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val df = sqlContext.read
.format("org.apache.spark.sql.execution.datasources.csv.CSVFileFormat")
.option("header","true")
.option("inferSchema","true")
.load("data.csv")
df.show()
관련 .CSV의 행은 다음과 같다 :
04.10.2016;12:51:00;1,1;0,41;0,416
스파크 열로 행 전체를 해석한다. df.show()
인쇄 : 이전의 시도에서
+--------------------------------+
|Col1;Col2,Col3;Col4;Col5 |
+--------------------------------+
| 04.10.2016;12:51:...|
+--------------------------------+
그것은 df.show()
작동하려면이 지금 말한다 곳도 '...'더 행 내용을 인쇄 결국 세 번째 COL에 쉼표에서 행을 절단했다.
과 같이 사용자 지정 구분 기호를 CSV 형식으로 설정하십시오. 고마워요! :) –
소수점 구분 기호로 쉼표 (',')로 숫자를 올바르게 읽습니까? – Ahue