2016-06-03 2 views
1

내 프로젝트에 스트리밍 환경을 설정해야합니다. 데이터 세트는 옆에 : 나는 소스로 PostgreSQL의 아파치 카프카를 사용하고 아파치 스파크 또는 FLINK와 카프카에 연결할 계획입니다 http://research.microsoft.com/pubs/152883/User_guide_T-drive.pdf12000 개의 파일을 하나의 테이블로 가져 오기

그러나 문제는 데이터 세트가 약 10 000 텍스트 파일 것입니다.

그래서, ~ 10000 개의 파일 (각각 약 500 행)을 하나의 테이블로 가져 오는 가장 효율적이고 우아한 방법은 무엇입니까?

는 지금 내가 psycopg2executemany 방법 (슈퍼 슬로우) 및 아파치 FLINK 작업 JDBC 커넥터 (좋은 속도와 만에서 이상 10000 파일을 반복하는 방법을 모른다와 파이썬 스크립트를 시도했습니다 하나의 작업.

답변

1

하나의 간단한 해결책은 각 행을 불꽃을 사용하여 폴더를 읽고 파티션 당 ODBC 연결을 열고 반복하고 작성하는 것입니다.

+0

이것은 paralellism 4 매우 부드러운했다, 그러나 나는 FLINK 사용했습니다. –

관련 문제