2012-10-20 7 views
4

RAR 유틸리티 (압축 100GB, 압축 20GB)를 사용하여 다중 분할 압축 CSV 파일을 얻었으므로 Google Cloud Storage에 업로드 된 RAR 파일 부품 100 개가 있습니다. Google Cloud Storage로 추출해야합니다. GAE에서 파이썬을 사용할 수 있다면 가장 좋을 것입니다. 어떤 아이디어? 다운로드, 추출 및 업로드를 원하지 않습니다. 클라우드에서 모든 것을하고 싶습니다.Google Cloud Storage에서 RAR 파일 압축

답변

4

클라우드에서 RAR 파일을 직접 압축 해제/압축 해제 할 수있는 방법이 없습니다. gsutil -m (멀티 스레딩/멀티 프로세싱) 옵션에 대해 알고 있습니까? 병렬로 실행하여 전송 속도를 향상시킵니다. 나는이 순서 좋을 것 : 당신은 매우 느린 인터넷 연결을 사용하지 않는 gsutil -m cp file-pattern dest-bucket

를 사용

  • 업로드가 병렬로 파일을 압축 해제
  • 로컬 풀고

    • 다운로드 압축 아카이브 파일을 20기가바이트은 안 매우 오래 걸릴 것입니다. (한 시간이 채 안 걸릴 것입니다.) 그리고 병렬 업로드에 대해서도 마찬가지입니다. (병렬 파일의 크기는 보관 파일의 크기에 따라 다릅니다.

      Btw를 사용하면 $HOME/.boto 파일의 parallel_thread_countparallel_process_count 변수를 통해 gsutil -m에서 사용하는 병렬 처리를 조정할 수 있습니다.

  • 6

    이 질문에 대한 답변은 이미 받았지만 이후의 유사한 유스 케이스에 대해서는 GCE에서 작은 Linux 인스턴스 (예 : f1-micro)를 회전하여 다음과 같이 실행하십시오. Marc Cohen이 제안한 his answer. 인스턴스에는 gsutil이 사전 설치되어있어 사용하기 쉽습니다. 완료되면 결과 파일이 이미 Google Cloud Storage에 저장되었으므로 마이크로 인스턴스를 종료하고 삭제하면됩니다.

    단계별 지침 :

    1. Create a Google Compute Engine VM instance
    2. SSH to the instance
    3. 여기 장점은 the other answer

    의 지침에 따라 대신 자신의 컴퓨터에 다운로드하면 Google Cloud 자체 내의 모든 데이터를 전송하므로 전송 속도가 매우 빨라야하며 자체 Interne에 의존하지 않아야합니다. 연결 속도를 높이거나 대역폭을 소비하지 마십시오.


    참고 : 네트워크 대역폭 (vCPU를 단위) VM, 빠른 성능, 그래서 더 큰 VM을 만드는 것이 좋습니다의 크기에 비례한다.

  • 예를 들어,
  • 그래서 가장 가까운 분으로 반올림

    1. 최소 10 분, n1-standard-1 8을 기준으로 USD $ 0.05/시간을 (비용 주어진 다음과 같이 구글 컴퓨 트 엔진 pricing for VM instances입니다 2016 년 10 월), 15 분의 사용료는 총 USD $ 0.0125입니다.

    +0

    어떻게하는지 자세히 설명해 주시겠습니까? –

    +0

    @Soren - 답을 편집하여 단계별 지침을 추가하여 도움이 되었기를 바랍니다. –

    관련 문제