Scala를 사용하여 RDD에서 Spark의 DataFrame으로 변환하는 동안 Txt 파일의 데이터를 분할하는 문제가 발생했습니다.

코드 -

hyundai honda 
honda maruti 
maruti honda

출력 -

은 텍스트의 경우 클래스에게 있습니다

val myFile = sc.textFile("car.txt") 
val df = myFile.map(_.split(" ")).map(line => Text(line(0))).toDF() 
df.show()

경우가 car.txt 파일에

case class Text(field: String)

데이터 클래스 - 실행 중 -

+-------+ 
| field| 
+-------+ 
|hyundai| 
| honda| 
| maruti| 
+-------+

왜 DataFrame의 텍스트 파일에서 모든 데이터를 가져 오지 못합니까? 당신이 공간에 split 팅 데이터는 다음 해당 (첫 번째 단어)의 첫 번째 요소를 출력하기 때문에

그것은이다 ->line(0)

그냥 라인을 원한다면, 당신은 다음 .map(_.split(" ")) 및 잘라 수 있습니다 line (아니요 (0))

2016-12-19 01:15:16

답변