큰 파일을 inputstream으로 읽으려고하는데

나는 스파크가 내장 된 방법이 파티션을 가지고 있고 거대한 파일 청크를 읽고 텍스트 파일을 사용하여 rdd로 배포한다는 것을 알고있다. 그러나 스파크가 본질적으로 지원하지 않는 맞춤 암호화 된 filessytem에서 이것을 읽습니다. 내가 생각할 수있는 한 가지 방법은 대신 inputstream을 읽고 여러 줄을로드하고 집행자에게 배포하는 것입니다. 모든 파일이로드 될 때까지 계속 읽으십시오. 따라서 메모리 부족 오류로 인해 집행자가 폭발하지 않습니다. 스파크에서 그렇게 할 수 있습니까?큰 파일을 inputstream으로 읽으려고하는데

출처

2017-03-26 Hao Chen

다른 n에 대해 lines.take (n)을 시도하면 클러스터 제한을 찾을 수 있습니다.
또는

spark.readStream.option("sep", ";").csv("filepath.csv")

출처

2017-04-02 02:00:38

큰 파일을 inputstream으로 읽으려고하는데

답변

관련 문제