2010-08-11 3 views
0

나는 hadoop을 사용하고 있고 지우고 자하는 파일을 생성하는 맵 작업을하고있다. 현재이 파일들을 콜렉터를 통해 줄이기 작업에 전달하고있다. reduce 작업은이 파일을 수집기로 전달합니다. 그러면 파일을 유지할 수 있습니다.맵에 의해 생성 된 시퀀스 파일을 유지하기 위해 hadoop

내 질문은 어떻게 안정적이고 효율적으로지도로 만든 파일을 유지합니까?

나는지도의 출력물을 자동으로 삭제할 수 없다는 것을 알고 있지만, 더 나은 접근 방법은 없는가?

감사합니다.

답변

0

두 가지 작업으로 나눌 수 있습니다.

먼저 원하는 시퀀스 파일을 출력하는 맵 전용 작업을 만듭니다.

그런 다음 기존 작업 (지도에서 실제로 아무것도하지 않고 더 이상 구현을 수행하지 않고도 & 사용 사례에 따라 약간의 작업을 수행 할 수 있음)을 사용하고 이전지도 만 입력하면 두 번째 직업.

출력 경로를 인수로 두 번째 작업 입력 경로에 전달하는 것처럼 2 개의 병을 실행하는 하나의 jar에이 모든 것을 래핑 할 수 있습니다.

+0

감사합니다.하지만 맵 내에서 파일을 사용해야했습니다. 예를 들어 이미지를 만든 다음 이미지에서 특정 피쳐를 추출합니다. 각 tasktracker가 시퀀스 파일을 만들고 맵 함수가 시퀀스 파일에 대한 정적 참조를 검색하도록 결정했습니다. – akintayo

관련 문제