Google의 데이터 흐름 작업은 관심있는 파일이 포함 된 GCS 멀티 지역 버킷에서 읽습니다. 이 파일들은 또한 보관 버킷으로 옮겨지기 때문에 GCS 목록 작업은 이동 된 파일을 반환하는 경우가 있습니다 (결국 일관된 작업이므로 기대했던대로).GCS 버킷 목록의 궁극적 인 일관성 처리
FileBasedSource
이 "고스트"파일을 읽으려고하면 불행히도 우리의 작업이 폭발적으로 증가합니다. Google의 Dataflow SDK와 Apache Beam은 GCS 파일을 마지막으로 열 수있는 메소드 (FileBasedSource
: createReader
및 startImpl
)를 만들었으므로 무시할 수 없습니다.
파일을 이동하지 않는 것 외에는이 문제를 해결하기위한 권장 사항이 있습니까? 이 Stack Overflow question은 다른 사람들이 비슷한 문제를 겪고 있음을 나타내지 만 응답이 "예상대로 부 풀리는"것으로 보입니다.
나는 GCS 객체리스트가 그 이후로 강하게 일관되게 만들어 졌기 때문에 나의 대답을 편집했다. – jkff