저는 우리가하고있는 데이터 분석을 위해 HBase를 평가하려고합니다.여러 스캔 객체의 HBase Mapreduce
HBase에는 이벤트 데이터가 포함됩니다. 키는 eventId + 시간입니다. 우리는 날짜 범위 사이에 몇 가지 이벤트 유형 (4-5)에 대한 분석을 실행하려고합니다. 이벤트 유형의 총 수는 약 1000입니다.
hbase 테이블에서 mapreduce 작업을 실행할 때의 문제점은 initTableMapperJob (아래 참조)이 하나의 스캔 객체 만 사용한다는 것입니다. 성능상의 이유로 우리는 1000 개의 이벤트 유형이 아닌 주어진 날짜 범위에서 4-5 개의 이벤트 유형에 대해서만 데이터를 스캔하려고합니다. 아래의 방법을 사용하면 스캔 객체가 1 개만 필요하기 때문에 선택의 여지가 없다고 생각합니다.
( 스캔 스캔, 클래스 매퍼, 클래스 outputKeyClass, 클래스 outputValueClass, org.apache.hadoop.mapreduce.Job 작업 문자열 테이블) 는 IOException이
를 throw이 가능 공공 정적 무효 initTableMapperJob인가 스캔 객체 목록에서 mapreduce를 실행 하시겠습니까? 어떤 해결 방법? 당신은 클래스를 찾고 있습니다
감사
http : // stackoverflow를 확인할 수 있습니까?com/questions/11353911/extended-hadoops-tableinputformat-to-a-prefix-for-distribution은 배포 용으로 사용됩니까? – marcog