2012-06-14 4 views
9

내가 oozie 2.3 공유 라이브러리에 대한 몇 가지 질문이 : 현재oozie가 종속성을 처리하는 방법은 무엇입니까?

을, 나는 우리 coordinator.properties에서 공유 라이브러리를 정의 : 여기

oozie.use.system.libpath=true 
oozie.libpath=<hdfs_path> 

내 질문은 다음과 같습니다

  1. 때 주 라이브러리가 다른 데이터 노드에 복사되고 얼마나 많은 데이터 노드가 공유 라이브러리를 가져 옵니까?

  2. 코디네이터 작업의 wf 수에 따라 공유 라이브러리가 다른 데이터 노드에 복사되거나 코디네이터 작업 당 한 번만 복사됩니까? oozie.libpath 재산에 항목을 추가

답변

8

효과적으로 워크 플로의 조치가 실행될 때 OOZIE (이이 DistributedCache 속성 임) mapred.cache.files 구성 속성에로 이러한 라이브러리를 구성하는 것을 의미합니다. 그들은 것,

하둡은 한 번 작업 당 각 클러스터 노드에 그 항아리를 복사 돌볼 것이며, 작업은 두 번째 질문에 응답 클래스 경로 구성 등록 그래서 mapred.job.classpath.files

의 단지로 구성되어 코디네이터 작업 당 한 번이 아니라 워크 플로우의 각 작업마다 복사됩니다. 따라서 4 가지 mapreduce 작업이있는 wf 작업이있는 경우 라이브러리는 해당 작업 흐름의 수명 내내 각 작업 추적기 (mapreduce 작업에 참여하는 작업 추적기 만)에 4 번 복사됩니다.

+0

복수의 작업 또는 wfs를 업데이트하여 동일한 분산 캐시를 공유 할 수 있습니까? –

+0

당신이 무엇을 요구하는지 잘 모르겠 음 –

+0

시스템 libpath의 종속성이 항상 HDFS에서로드되고 워크 플로우가 실행될 때마다 분산 캐시를 사용하지 않는다는 것을 이해합니다. – gphilip

관련 문제