0
몇 천 개의 파일을 처리하는 데이터 흐름 작업을 만들고 각 파일에 대해 GCS의 다른 대상에 쓰려고합니다."데이터가 업로드되지 않았습니다"오류로 인해 Google Dataflow 작업이 실패했습니다.
소스로 많은 TextIO를해야하고 별도의 흐름으로 대상에 작성해야합니다. 샘플 코드는 다음과 같습니다 :이 백엔드에서 오류 "업로드 불충분 한 데이터"와 함께 (영원히 매달려 보인다) 자동으로 실패
List<PCollection<String>> pcs = new ArrayList<>();
for(int i = 0; i < 2000; i++) {
pcs.add(p.apply(TextIO.Read.from("gs://wushilin-asia/some-folder/input-" + i + "/*")));
}
for(int i = 0; i < 2000; i++) {
pcs.get(i).apply(TextIO.Write.to("gs://wushilin-asia/some-folder/output-" + i + "/"));
}
p.run();
.
여기에 무슨 문제가 있습니까?
데이터 흐름 구조가 너무 복잡하고 데이터 흐름 작업 메타 데이터 저장소가이를 처리 할 수 없다는 것이 나타났습니다. 더 적은 분대에 감소는이 issu를 해결했습니다 .e –