2013-01-21 1 views
0

새로운 데이터가 올 때마다 작업 제어 프레임 워크가 해당 데이터에 따라 작업을 시작하는 데 사용할 수있는 알림을 생성하기 때문에 데이터 가용성을 위해 Hadoop을위한 알림 시스템을 구현하는 최선의 방법은 무엇입니까? 여기서 주요 관심사는 데이터가 사용 가능 해지면 데이터 가용성을 위해 NameNode에서 작업 폴링 대신 작업이 트리거되어야한다는 것입니다.이벤트 알림 HDFS에서 데이터 가용성?

답변

1

아마존 SQS와 같은 대기열을 사용하여 서로 상호 작용할 수있는 제작자/소비자 모델을 사용합니다.

생산자는 감시 된 디렉터리의 목록을 유지하고 (x는 매개 변수 여야 함)을 지정하고 명령이 0을 반환하면 $?으로 메시지를 보낼 수 있습니다. 메시지의 내용은 방금 나타난 디렉토리의 이름 일 수도 있고 일부 메타 데이터를 추가하여 추가 필드가있는 JSON 객체로 보낼 수도 있습니다.

소비자는 y 초마다 대기열을 들으며 (여기서 y는 매개 변수 여야 함) 새 데이터가있는 즉시이 디렉토리에서 작업을 시작할 수 있습니다.

+0

thnx 당신의 제안에 대한 것이지만 내가 보는 것은 매 y 초마다 폴링하는 대신 이벤트 기반 방식으로 수행 할 수 있습니다. 새 데이터가 만들어지면 meta가 NameNode에서 업데이트되고 NameNode가 이벤트를 발생시키고 작업 제어 프레임 워크는 Oozie가 데이터 가용성에 대한 알림을 받고 워크 플로를 시작할 것이라고 말합니다. – Ananda

+2

HDFS에는 내가 아는 기능이 없지만 로그를 계속 보면서 새 파일이 쓰여지는지 확인하고 그 주위에 무언가를 만들 수 있습니다. –

+0

나는 그것을 위해 무언가를 만들 가능성을 정확히 찾고있었습니다. 귀하의 제안에 감사드립니다. – Ananda