2014-10-22 2 views
2

나는 Impala에서 기본적인 질문을 받았다. Impala를 사용하면 HDFS에 저장된 데이터를 쿼리 할 수 ​​있습니다. 이제 파일을 여러 블록으로 분할하고 텍스트 줄이 두 블록에 걸쳐 있다고 가정 해 보겠습니다. Hive/MapReduce에서는 RecordReader가이를 처리합니다.Cloudera Impala : HDFS 블록의 데이터를 어떻게 읽습니까?

임팔라는 어떻게 그러한 시나리오에서 기록을 읽습니까?

답변

2

참조하는 my answer on the Impala user list :

임팔라 (예 : 텍스트 또는 RC 파일과 같은 특정 파일 형식을 검색 일어날 수있는 예) 불완전한 기록을 발견하면, 그것은 때까지 다음 블록 (들)에서 점진적으로 읽을 계속

전체 기록을 읽으십시오. 이는 소량의 '원격 읽기'(원격 데이터 노드에서 읽기)가 필요할 수 있지만 일반적으로 로컬에서 (이상적으로 단락 읽기를 통해) 읽어야하는 전체 블록에 비해 매우 적은 양입니다.

+0

이러한 원격 읽기가 호출되는 코드에 대한 링크를 제공하는 것이 유용합니다. –

관련 문제