2017-01-21 1 views
1

Google DataFlow Java SDK를 사용하려고했지만 내 입력 파일은 .parquet 파일입니다.Google DataFlow 및 읽는 여기 엔 나무 마루 파일

경계 파이프 라인을 경계 데이터 소스로 DataFlow 파이프 라인에서 읽을 수있는 기능을 찾을 수 없습니다. 나는 코더를 만들거나 Parquet Reader을 기반으로하는 AvroIO와 같은 비트를 싱크 할 수 있음을 이해합니다.

누군가 구현하는 가장 좋은 방법을 조언 할 수 있습니까? 또는 How-to \ examples에 대한 참고서를 가르쳐 주시겠습니까?

감사합니다.

--A

답변

3

https://issues.apache.org/jira/browse/BEAM-214에서 (당신이 그것을 전화로 상자 functinonality에서) 당신은 ParquetIO 대한 진행 상황을 확인할 수 있습니다.

빔 : https://github.com/apache/beam/tree/master/sdks/java/io/hdfs

데이터 흐름 : 한편

, 빔 및 데이터 흐름 SDK를 모두 하둡 FileInputFormat를 사용하여 마루 파일을 읽을 수 있어야한다 https://github.com/GoogleCloudPlatform/DataflowJavaSDK/tree/master/contrib/hadoop

관련 문제