저는 Apache Spark (스칼라에서는 언어가 부적절합니다)를 사용하기 시작했습니다. 독립 실행 형 모드을 사용 중이며 로컬 파일 시스템 (너무 HDFS처럼 배포되지 않음)에서 텍스트 파일을 처리하려고합니다.Spark : 로컬 파일 시스템에 SparkContext.textFile을 사용하는 방법
SparkContext
에서 textFile
방법의 문서에 따르면,
는 HDFS (모든 노드에서 사용 가능) 로컬 파일 시스템, 또는 하둡 지원 파일 시스템 URI에서 텍스트 파일을 읽어합니다 , 문자열의 RDD로 반환하십시오.
전체 텍스트 파일을 모든 노드에 복사 할 수 있는지 또는 입력 데이터가 이미 분할되어 있어야하는지 (예 : 4 개의 노드와 1000 개의 줄이있는 csv 파일을 사용하는 경우 각 노드에 250 개의 줄이 있어야합니다.
각 노드에 전체 파일이 있어야한다고 생각하지만 확실하지 않습니다.
아무런 언급이 없지만 회신 및 긴급 성으로 인해 정확하다고 가정합니다. 감사! – herman
고마워요! 그것은 내가 생각하는 것입니다,하지만 저는이 경우 확실히 확신합니다. 어쨌든 - 문제가 있으면 알려주세요. –
[외부 데이터 세트의 프로그래밍 가이드] (http://spark.apache.org/docs/1.2.1/programming-guide.html#external-datasets) : _ 로컬 파일 시스템의 경로를 사용하는 경우 파일 작업자 노드의 동일한 경로에서 액세스 할 수 있어야합니다. 파일을 모든 작업자에게 복사하거나 네트워크 마운트 공유 파일 시스템을 사용하십시오. _ – Tobber