각 파일에는 여러 줄에 걸쳐 텍스트가 포함 된 많은 파일이 하나의 디렉토리에 있습니다. 는 현재 내가 스파크 데이터 세트 (> 2.0)각 파일을 데이터 세트 행에 복사합니다.
val ddf = spark.read.text("file:///input/*")
그러나,이 각 행은 라인이 아닌 파일 데이터 세트를 생성에 모든 파일을 읽을 다음 코드를 사용합니다. 데이터 집합의 행마다 각 파일을 (문자열로) 갖고 싶습니다.
각 파일을 반복하지 않고 별도로 RDD
으로 읽지 않고 어떻게이 작업을 수행 할 수 있습니까?
아름다운 대답, 내가 찾던 구조를 감안할 때. – Tim