2016-12-20 4 views
1

Google의 데이터 흐름 작업은 관심있는 파일이 포함 된 GCS 멀티 지역 버킷에서 읽습니다. 이 파일들은 또한 보관 버킷으로 옮겨지기 때문에 GCS 목록 작업은 이동 된 파일을 반환하는 경우가 있습니다 (결국 일관된 작업이므로 기대했던대로).GCS 버킷 목록의 궁극적 인 일관성 처리

FileBasedSource이 "고스트"파일을 읽으려고하면 불행히도 우리의 작업이 폭발적으로 증가합니다. Google의 Dataflow SDK와 Apache Beam은 GCS 파일을 마지막으로 열 수있는 메소드 (FileBasedSource : createReaderstartImpl)를 만들었으므로 무시할 수 없습니다.

파일을 이동하지 않는 것 외에는이 문제를 해결하기위한 권장 사항이 있습니까? 이 Stack Overflow question은 다른 사람들이 비슷한 문제를 겪고 있음을 나타내지 만 응답이 "예상대로 부 풀리는"것으로 보입니다.

+0

나는 GCS 객체리스트가 그 이후로 강하게 일관되게 만들어 졌기 때문에 나의 대답을 편집했다. – jkff

답변

2

지금 Google Cloud Storage 객체 목록 작업은 strongly consistent이므로 원래의 문제는 더 이상 적용되지 않습니다.

S3와 같은 일관성있는 파일 시스템을 사용할 때 여전히 적용됩니다. 이 문제를 추적하려면 BEAM JIRA을 참조하십시오.

+0

고맙습니다. @jkff – ptf

+0

현재 상태를 업데이트 해 주셔서 감사합니다. – ptf

관련 문제