2017-04-25 1 views
0

몇 천 개의 파일을 처리하는 데이터 흐름 작업을 만들고 각 파일에 대해 GCS의 다른 대상에 쓰려고합니다."데이터가 업로드되지 않았습니다"오류로 인해 Google Dataflow 작업이 실패했습니다.

소스로 많은 TextIO를해야하고 별도의 흐름으로 대상에 작성해야합니다. 샘플 코드는 다음과 같습니다 :이 백엔드에서 오류 "업로드 불충분 한 데이터"와 함께 (영원히 매달려 보인다) 자동으로 실패

List<PCollection<String>> pcs = new ArrayList<>(); 
 
for(int i = 0; i < 2000; i++) { 
 
     pcs.add(p.apply(TextIO.Read.from("gs://wushilin-asia/some-folder/input-" + i + "/*"))); 
 
} 
 

 
for(int i = 0; i < 2000; i++) { 
 
     pcs.get(i).apply(TextIO.Write.to("gs://wushilin-asia/some-folder/output-" + i + "/")); 
 
} 
 
p.run();

.

여기에 무슨 문제가 있습니까?

+0

데이터 흐름 구조가 너무 복잡하고 데이터 흐름 작업 메타 데이터 저장소가이를 처리 할 수 ​​없다는 것이 나타났습니다. 더 적은 분대에 감소는이 issu를 해결했습니다 .e –

답변

0

데이터 흐름 구조가 너무 복잡하고 데이터 흐름 작업 메타 데이터 저장소가이를 처리 할 수 ​​없다는 것이 밝혀졌습니다. 더 적은 구성 요소로 축소하면이 문제가 해결됩니다.

관련 문제