2012-11-28 3 views
4

Google App Engine에 Python 웹 응용 프로그램을 배포했습니다.s3 데이터를 Google 클라우드 저장소로 이전

Amazon S3에 저장된 로그 파일을 가져 와서 Google Cloud Storage에로드해야합니다. Google Cloud Storage에 저장되면 일부 변환을 수행하고 데이터를 분석을 위해 BigQuery로 가져와야 할 수도 있습니다.

boto가 gsutil의 내부에 있고 프로젝트에 boto를 사용하고 싶기 때문에 gsutil을 개념 증명의 일종으로 사용 해봤습니다. 이것은 작동하지 않았다.

누군가가 2 개의 구름 사이에서 파일을 직접 전송할 수 있는지 알고 싶습니다. 가능하다면 간단한 예제를보고 싶습니다. 결국이 작업은 GAE에서 실행되는 코드를 통해 수행되어야합니다.

답변

0

저는 경쟁 클라우드 제공 업체에 데이터를 전송하기위한 API를 제공하는 클라우드 공급자를 알지 못합니다. 클라우드 제공 업체는 데이터를 경쟁 업체로 이전하는 데 도움이되는 인센티브를 제공하지 않습니다. 거의 확실하게 데이터를 중간 기계로 읽은 다음 Google에 작성해야합니다.

+0

많은 공급자가 데이터를 가져 오는 기능을 제공합니다. Google은 'S3 가져 오기 버킷'옵션을 가질 수 있습니다. – hraban

8

thread 개를 기준으로 gsutil을 사용하여 S3에서 Google Cloud Storage로 데이터를 스트리밍 할 수 있지만 모든 바이트는 로컬 컴퓨터와 컴퓨터에서 GCS로 두 번까지 홉을 걸어야합니다. 그러나 App Engine을 사용하고 있기 때문에 S3에서 가져 와서 GCS에 입금 할 수 있어야합니다. App Engine이 중개자입니다 (즉 모든 바이트가 S3에서 앱으로 이동 한 다음 GCS로 이동하는 경우). 당신은 끌어 오기쪽에는 boto를, 푸쉬쪽에는 Google Cloud Storage API을 사용할 수 있습니다. (

https://cloud.google.com/storage/transfer/getting-started

당신은 당신이 원하는 파일 또는 "디렉토리"를 가져올 수있는 소스 통에 파일 필터를 설정할 수 있습니다

2

구글 스토리지 서비스 (S3)에서 전체 양동이를 가져올 수 있습니다 즉 특정 접두어가있는 항목).

+0

이상한 GUI 도구로 여러 버킷을 선택하거나 s3에있을 수있는 모든 버킷 목록을 업로드 할 수 없습니다. 모든 양동이를 Google 저장 용량에 수동으로 업로드하는 것은 시간이 오래 걸립니다. – Kelseydh

관련 문제