2016-05-31 4 views
1

저는 Apache Spark를 사용하기 시작했습니다. 클러스터 모드를 사용 중이고 큰 파일을 처리하려고합니다. SparkContext에서 textFile 메서드를 사용하면 모든 노드에서 사용할 수있는 로컬 파일 시스템을 읽습니다. 사실 내 파일이 크기 때문에 각 클러스터 노드에 복사하여 붙여 넣기가 쉽지 않습니다. 내 질문은 : 공유 폴더와 같은 고유 한 위치에이 파일을 저장할 수있는 방법이 있습니까? 고마워요로컬 파일 및 클러스터 모드

답변

2

Hadoop 또는 S3에 파일을 보관할 수 있습니다. 그러면 파일의 경로를 textFile 메쏘드 자체에 줄 수 있습니다. S3에 대한

:

val hdfsRDD = sc.textFile("hdfs://...") 
: 하둡에 대한

val data = sc.textFile("s3n://yourAccessKey:[email protected]/path/") 

관련 문제