1

내 목표는 사용자가 비교적 큰 데이터 세트를 MongoDB로 가져올 수있게하는 것입니다 (mongo 클라우드에서 호스팅 됨). Api 서버는 컨테이너 엔진에서 호스팅되며 큰 부하를 가진 다른 작업은 없습니다 (간단한 CRUD 작업 만).GCP 클라우드는 대형 .csv 파일을 처리하는 데 적합한 도구입니까?

사용자가 .csv 파일 (최대 100MB)을 GCP Bucket에 업로드합니다. 여기에서 csv 파일의 각 행을 MongoDB에 유효성을 검사하고 업로딩 한 다음 가져온 데이터를 기반으로 계산을 수행해야합니다. GCP 클라우드 기능에 적합합니까? 나는 약 540 초의 실행 기간 제한에 대해 약간 걱정하고있다.

+1

Cloud Dataflow를 사용하여 Mongo로 가져 오기를 관리하는 것이 좋습니다. 거기에서 다른 데이터 흐름 파이프 라인을 실행하여 계산을 실행하거나 단순히 응용 프로그램에서 수행 할 수 있습니다. –

답변

1

이것은 Apache Beam/Dataflow의 좋은 사용 사례처럼 보입니다. Beam 2.2를 사용하면 TextIO.read().from(...).watchForNewFiles(...) - javadoc을 사용하여 버킷에 새 파일을 지속적으로 가져 오는 스트리밍 파이프 라인을 작성할 수 있습니다.

관련 문제