2016-12-18 1 views
0

텍스트 파일의 데이터를 RDD로 읽고 DataFrame으로 변환하지만 원하는 출력을 얻지 못합니다.Scala를 사용하여 RDD에서 Spark의 DataFrame으로 변환하는 동안 Txt 파일의 데이터를 분할하는 문제가 발생했습니다.

코드 -

hyundai honda 
honda maruti 
maruti honda 

출력 -

은 텍스트의 경우 클래스에게 있습니다
val myFile = sc.textFile("car.txt") 
val df = myFile.map(_.split(" ")).map(line => Text(line(0))).toDF() 
df.show() 

경우가 car.txt 파일에

case class Text(field: String) 

데이터 클래스 - 실행 중 -

+-------+ 
| field| 
+-------+ 
|hyundai| 
| honda| 
| maruti| 
+-------+ 

왜 DataFrame의 텍스트 파일에서 모든 데이터를 가져 오지 못합니까? 당신이 공간에 split 팅 데이터는 다음 해당 (첫 번째 단어)의 첫 번째 요소를 출력하기 때문에

답변

2

그것은이다 ->line(0)

그냥 라인을 원한다면, 당신은 다음 .map(_.split(" ")) 및 잘라 수 있습니다 line (아니요 (0))

관련 문제