우리는 PubSub 구독, 그룹 메시지를 읽고 BigQuery에 쓸 필요가있는 Google Cloud Dataflow 작업자에서 실행되는 스트리밍 데이터 흐름 파이프 라인을 보유하고 있습니다. 내장 된 BigQuery 싱크는 이 각 그룹에 대해 특정 데이터 세트 및 표를 타겟팅해야하므로 필요에 맞지 않습니다. 사용자 지정 싱크가 파이프 라인을 스트리밍하는 데 지원되지 않으므로 ParDo에서 작업을 수행하는 것이 유일한 해결 방법 인 것처럼 보입니다. 이런 식으로 뭔가 :싱크가없는 스트리밍 데이터 흐름 파이프 라인
파이프 라인의이 종류를 작성할 때 알아야 할 파이프 라인, 또는 아무것도에 싱크대를 가지고 있지 어떤 알려진 문제가 있습니까?
입력에 따라 다른 데이터 세트/테이블에 작성해야하는 파이프 라인이 있습니다. 우리는 N 개의 BigQuery 싱크에 쓰기 위해'side outputs '를 사용합니다. 이것도 당신을 위해 일할 수 있을까요? –
그것에 대해 생각했지만 N은 얼마나 큰가요? 우리에게 N은 약 1 백만입니다. – Thomas
어 ... 우리는 약 10-20 개의 싱크대가 있습니다. 1 백만 명이 문제라고 생각합니다! 이는 이상한 요청처럼 들리지만 BigQuery에서 수백만 개의 다른 테이블에 작성해야한다는 사실입니다. 해결하려는 문제에 대해 좀 더 자세히 설명하고 더 많은 맥락을 제시 할 수 있습니까? –