2016-11-21 5 views
1

현재 Apache Spark로 첫 번째 시도를하고 있습니다. SQLContext 개체와 함께 .csv 파일을 읽으 려하지만 File이 유럽 (값 구분 기호로 사용되는 소수 구분 기호 및 세미콜론으로 쉼표)이므로 Spark에서 올바른 결과를 제공하지 않습니다. Spark에 다른 .csv 구문을 따르라고 지시 할 수 있습니까?Spark로 유럽 형식의 .csv 데이터 읽기

val conf = new SparkConf() 
      .setMaster("local[8]") 
      .setAppName("Foo") 

val sc = new SparkContext(conf) 

val sqlContext = new SQLContext(sc) 

val df = sqlContext.read 
      .format("org.apache.spark.sql.execution.datasources.csv.CSVFileFormat") 
      .option("header","true") 
      .option("inferSchema","true") 
      .load("data.csv") 

df.show() 

관련 .CSV의 행은 다음과 같다 :

04.10.2016;12:51:00;1,1;0,41;0,416 

스파크 열로 행 전체를 해석한다. df.show() 인쇄 : 이전의 시도에서

+--------------------------------+ 
|Col1;Col2,Col3;Col4;Col5  | 
+--------------------------------+ 
|   04.10.2016;12:51:...| 
+--------------------------------+ 

그것은 df.show() 작동하려면이 지금 말한다 곳도 '...'더 행 내용을 인쇄 결국 세 번째 COL에 쉼표에서 행을 절단했다.

답변

1

테스트 및 분할로 읽을 수 있습니다. .option("delimiter",";")

+0

과 같이 사용자 지정 구분 기호를 CSV 형식으로 설정하십시오. 고마워요! :) –

+0

소수점 구분 기호로 쉼표 (',')로 숫자를 올바르게 읽습니까? – Ahue

관련 문제