출력용 Google Cloud Storage가있는 Google Compute Engine에서 실행되는 Apache Spark 스크립트가 있습니다. 내 Cloud Storage 폴더에 300 개 이상의 part-00XXX 파일이 있습니다. 나는 그들을 합병하고 싶다.Google Cloud Storage에서 32 개가 넘는 파일을 병합합니다.
내가 시도 :
[email protected]:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
하지만이 오류가있어 모든 논문의 일부 파일을 병합하는 솔루션의
CommandException: "compose" called with too many component objects. Limit is 32.
어떤 아이디어?
파일을 32 개의 파일로 구성된 청크로 분할하십시오. 각각을 개별적으로 병합하십시오. N 개의 파일로 시작한다면 N/32 개의 파일을 갖게됩니다. 반복. 메모리가 충분하다면 하위 명령 줄을 사용하여 수행 할 수 있으며 매회 디스크를 읽거나 쓰지 않아도됩니다. –