2013-08-20 3 views

답변

1

나는 당신과 비슷한 문제가 있습니다. 여기에 article with number of HDFS files merging options이지만 모두 구체적인 내용이 있습니다. 이 목록의 아무도 내 요구 사항을 충족하지 못합니다. 희망이 당신을 도울 수 있습니다.

  • HDFS concat (실제로 FileSystem.concat()). 그리 오래 된 API가 아닙니다. 마지막 블록이 가득 차도록 원본 파일이 필요합니다.
  • MapReduce jobs : 아마도이 기술을 기반으로하는 몇 가지 해결책을 취할 것이지만 설정이 느립니다.
  • copyMerge - 내가 볼 수있는 한,이 사본이 다시 복사됩니다. 그러나 나는 세부 사항을 아직 확인하지 않았다.
  • 파일 크래시 - 다시 MapReduce처럼 보입니다.

그래서 MapReduce 설정 속도가 문제가되지 않으면 큰 문제가되지 않습니다. 실시간 요구 사항이있는 경우 상황이 복잡해집니다.

내 '미친'아이디어 중 하나는 동일한 클러스터에서 Hbase를 사용하면서 HBase 보조 프로세서 메커니즘 (엔드 포인트)을 사용하고 파일에 지역 정보를 차단하는 것입니다. '미친'이라는 단어가 당신을 멈추게하지 않으면 다음을보십시오. http://blogs.apache.org/hbase/entry/coprocessor_introduction

관련 문제