2016-06-16 5 views
1

하나의 데이터 프레임으로 여러 파일을로드 할 수 있습니까? 내가로드 하나 개의 파일이있는 경우 일반적으로, 나는 예를 들어 호출합니다 :데이터 프레임에 여러 파일로드

file1 = "https://stackoverflow.com/a/b/c/folder/file1.csv" 
dc = sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(file1) 

하지만 폴더 /a/b/c/folder/*.csv 아래에있는 모든 파일을로드 할 수 있습니다.

+0

'dc = sqlContext.read.format ('com.databricks.spark.csv') 옵션을 사용하면 어떻게됩니까? load ("a/b/c/folder/*. csv")'오류가 발생합니까? 작동합니까? –

+0

"java.lang.ArrayIndexOutOfBoundsException : 18002"오류가 발생합니다. – hdy

답변

0

생각해 보면 sqlContext.read.format('com.databricks.spark.csv').options(header='false', inferschema='true').load(folder)입니다. 이전에 압축 된 파일 이었기 때문에 오류가 발생했습니다. 메모리와 비교하여 크기가 큽니다.