2017-01-25 2 views
1

파이프 라인을 테스트하고 싶습니다. 내 파이프 라인은 BigQuery에서 데이터를 추출한 다음 데이터를 GCS 및 S3에 저장합니다. 여기 파이프 라인 테스트에 대한 정보가 있지만 https://cloud.google.com/dataflow/pipelines/testing-your-pipeline, BigQuery의 데이터 추출 데이터 모델은 포함되어 있지 않습니다.BigQuery를 사용하여 Dataflow 파이프 라인을 테스트하는 방법

다음 예를 발견했지만 주석이 없으므로 이해하기가 약간 어렵습니다. https://github.com/GoogleCloudPlatform/DataflowJavaSDK/blob/master/examples/src/test/java/com/google/cloud/dataflow/examples/cookbook/BigQueryTornadoesTest.java

내 파이프 라인을 테스트하는 데 유용한 문서가 있습니까?

답변

1

전체 파이프 라인을 올바르게 통합 테스트하려면 BigQuery에 저장된 샘플 데이터를 조금만 생성하십시오. 또한 S3 및 GCS에 견본 버킷/폴더를 만들어 출력을 저장하십시오. 그런 다음 PipelineOptions를 사용하여 테스트 BQ 테이블을 지정하여 평소처럼 파이프 라인을 실행하십시오. 로컬로 실행하려면 DirectPipelineRunner을 사용할 수 있습니다. 아마도 파이프 라인을 먼저 실행 한 다음 S3 및 GCS의 데이터를 다운로드하고 예상 한 내용을 확인하는 스크립트를 만드는 것이 가장 쉽습니다.

일부 오프라인 데이터에서 파이프 라인의 변환을 테스트하려면 WordCount 예제를 따르십시오.

관련 문제