2015-01-13 2 views
1

많은 파일이 들어있는 입력 폴더가 있습니다. 나는 그들을 복사/새로운 경로로 이동 같은 일괄 작업을하고 싶습니다.파일을 이동/복사하십시오. spark hadoop

나는 Spark를 사용하여 이것을하고 싶다.

이 작업을 수행하는 방법에 대해 도움을 주거나 제안하십시오.

+2

왜 스파크 :이 같은 경로를 제공해야이 경우

? 왜 distcp를 사용하지 않습니까? – climbage

+0

스파크는 일반적인 파일 관리에 실제로 사용되는 도구가 아닙니다. 그래서 불꽃에 대한 당신의 동기가 무엇인지 설명 할 수 있다면 좋을 것입니다. – eckes

+0

우아하지는 않지만, 중간 크기의 측면 조인을 준비하는 좋은 방법입니다. – undershock

답변

3

로컬 디렉토리 인 경우 val myfile = sc.textFile("file://file-path")을 사용하여 읽을 수 있으며 myfile.saveAsTexFile("new-location")을 사용하여 저장하십시오.

모든 스파크는 모든 파일을 읽고 동시에 새로운 위치에 저장하고 파일을 배치하여 새 위치 (HDFS/로컬)에 저장하는 작업입니다.

는 각 작업자 노드의 로컬 파일 '경로를 가져야 상단 경우 귀하의 불꽃 클러스터

0

의 각 작업자 노드에서 사용할 수있는 동일한 디렉토리가 있는지 확인합니다.

당신이 제거하고 싶다면 hadoop 파일 시스템 (hdfs)과 같은 분산 파일 시스템을 사용할 수 있습니다.

hdfs://nodename-or-ip:port/path-to-directory 
관련 문제