2013-10-08 2 views
0

첫 번째 맵 축소 작업에서 HBase 테이블을 처리하고 더 작은 목록의 행 키를 출력합니다. 다른 HBase 테이블에서 가져와 다른 Hbase 테이블로 출력중인 다른 맵 축소 작업을 처리하려면이 문자열 목록을 사용해야합니다. 첫 번째지도 축소 작업의 출력을 저장하고 액세스하는 적절한 방법은 무엇입니까?지도 축소 출력을 다른지도 축소 작업의 입력으로 사용하는 방법?

+0

첫 번째 MapReduce 작업의 출력이 그리 크지 않은 경우, 출력을 분산 캐시에 배치 할 수 있습니다.이 출력은 사용할 두 번째 MapReduce 작업에서 사용할 수 있습니다. – Chaos

답변

0

하둡은 한 MR 작업의 출력을 다른 MR 작업으로 스트리밍하는 것을 지원하지 않습니다. 따라서 첫 번째 MR 작업의 출력은 HDFS (또는 다른 영구 저장 장치)에 저장 한 다음 두 번째 MR 작업을 읽어야합니다. Oozie 또는 Azkaban을 사용하여 DAG 개의 작업을 만듭니다. 간단한 작업 흐름을 위해 Hadoop의 JobControl API를 사용하십시오.

Apache Tez은 아직 배양기 단계에 있으며, MR 작업을 통해 데이터를 스트리밍 할 수 있습니다. 언급했듯이 Tez는 아직 Incubator 단계에 있으므로 약간의주의를 기울여 사용하십시오.