2016-11-11 1 views
0

"사용자 지정 소스 및 싱크 (Python)"(https://cloud.google.com/dataflow/model/custom-io-python)의 문서 은 작성 프로세스가 여러 작업자와 함께 작동한다고 설명합니다.iobase.write의 Writer 하위 클래스가 로컬 서버에 레코드를 쓰고 Writer 프로세스가 여러 작업자에서 작동 할 때 어떻게 직렬화합니까?

파이프 라인 I/O가 서버 로컬 저장소를 사용할 때 사용자 지정 싱크의 "finalize_write"가 작업자 저장소를 처리하는 방법은 무엇입니까?

.gz 작성을 지원하는 맞춤 싱크를 쓰고 있습니다. 텍스트 출력을 위해 로컬 하드 디스크를 사용해야합니다.

감사합니다.

답변

1

finalize_write는 GCS에서 파일 이름 바꾸기와 같이 데이터 묶음을 처리 한 후에 추가 외부 작업을 수행 할 때 유용합니다. 싱크가 작동하려면 Writer를 통해 Dataflow 파이프 라인에서 데이터를 내 보내야합니다. 필요한 경우 로컬 디스크에 일시적으로 데이터를 버퍼링 할 수 있지만 데이터는 번들의 끝을 지나서 남아있을 수 없습니다.