2017-02-03 1 views
0

제 문제는 500k 행의 Oracle 테이블이 있다는 것입니다. 나는 그것을 parquet 파일로 HDFS로 가져 오기 위해 설정했다. --num-partition 매개 변수를 32로 설정하고 32 개의 쪽모 세공 파일을 얻지 만 그 중 하나는 28MB 크기이고 다른 크기는 2-3KB입니다.sqoop 수입 마루 크기

bin/sqoop import --connect <JDBC> --username <USER> --password <PASSWD> --table <TABLE> --target-dir <TARGET_DIR> -m32 --as-parquetfile --delete-target-dir --outdir <DIR> 

내 질문은,이 파일 크기에 대한 이유가 될 수 있는지 : 여기

내 Sqoop을 명령입니까?

답변

0

데이터가 일정하게 배포되지 않았다는 뜻입니다.

명령에 --split-by 열이 표시되지 않았습니다. 따라서, 분할이 기본 키에서 수행된다고 가정하십시오. 분할은 기본적으로 범위 쿼리를 동시에 실행하여 수행됩니다. 범위 쿼리 중 하나가 최대 데이터를 가져 오므로 크기는 28MB입니다.