스파크 작업에서 하드 디스크를 직접 읽고 쓸 수 있습니까?

스파크 작업의 출력을 hdfs에 쓰고 거기에서 다운로드해야합니까? 또는 로컬 파일 시스템에 직접 기록 될 수 있습니다.스파크 작업에서 하드 디스크를 직접 읽고 쓸 수 있습니까?

2017-10-17 Aditya

기본적으로 아니요, 로컬 파일 시스템 파일에 쓰기 위해 spark의 네이티브 작성 API (예 : df.write.parquet)를 사용할 수 없습니다. 스파크 로컬 모드 (클러스터가 아닌 자신의 컴퓨터)에서 실행하면 로컬 파일 시스템을 읽고 쓰게됩니다. 그러나 클러스터 설정 (독립 실행 형/YARN/etc)에서는 파티션이 일반적으로 별도의 노드에 포함되어 있기 때문에 HDFS에 쓰기가 유일한 논리적 인 방법입니다. HDFS에 쓰기

는 본질적으로이 문제를 적어도 하나 포함 할 로컬 파일 시스템에 쓰는 반면, 배포됩니다

1) 노드의 로컬 파일 시스템에 쓰기는 1 개 노드에서 모든 다른 노드에서 파일 (5 개 파일을 의미 다른 7 개 파일 등)

2) 당신은 기존의 I를 사용하여 드라이버 로컬 파일 시스템에 쓸 수 collect

을 실행에 가깝다 드라이버로 모든 실행 '결과를 보낼 필요 드라이버의 파일 시스템에 쓰기/O Python이나 Scala와 같은 언어로 작성된 작업.

스파크 작업에서 하드 디스크를 직접 읽고 쓸 수 있습니까?

답변

관련 문제