2014-11-17 2 views
0

현재 프로젝트에 대해 Hadoop에 대해 배우고 있습니다. My Project Goal은 사용자 입력을 기반으로 클러스터의 도구를 트리거 할 수있는 시스템을 개발하는 것입니다. 배치 처리 시스템입니다. 시스템은 순차 및 비 순차 컴퓨팅을 모두 지원해야합니다. 데이터의 크기가 크기 때문에 우리는 hadoop과 mapreduce를 사용하고 있습니다. 클러스터의 모든 노드는 모든 도구가 필요가 있지만, 그들가 입력 파일 형식 예를 들어하둡 기반 자동화

, 사용자가 PDF 파일의 형태로 입력을 제공하는 경우

에 따라있어서 사용합니다. 파일은 hdfs로로드됩니다. 마스터 노드는 클러스터에 일부 정보를 표시하여 pdf 파일 처리 도구를 엽니 다. .jpeg 인 경우 마스터는 클러스터 노드에 jpeg 파일을 처리 할 수있는 다른 도구를 열 것을 요청합니다.

여기에 도구는 사용자가 제공 한 파일을 처리하는 데 사용되는 몇 가지 일반적인 도구입니다. 다른 도구가 트리거해야하는 파일 형식을 기반으로합니다. 이 도구는 독립 실행 형 컴퓨터에서 실행할 수있는 무료 다운로드 도구입니다.

지금 우리는 수동으로 파일을 가져 와서 도구 A로 처리하고 출력을 단일 시스템의 도구 B에 대한 입력으로 사용합니다. 그러나 목표는 Hadoop Cluters를 사용하여 자동화하는 것입니다.

다른 hadoop 도구 (하이브, Hbase 등)를 예약하고 트리거하는 데 도움이되는 워크 플로 도구 Oozie에 대해 읽었지만 텍스트 파일, pdf 파일, 이미지 처리에 사용되는 ex.tools에 대해 비 Hadoop 도구를 트리거해야합니다.). 비 누출 도구를 실행하기 위해 오지를 사용할 수 있습니까? 거기 hadoop 함께 할 더 좋은 방법이 있습니까 ??

나는 앞으로 나아갈 수 없었습니다. 어디에서 시작해야 할 지 모르거나 이것을 배우기 위해 필요한 도구를 모르십니까?

누군가가 알려 주실 수 있습니까? 어떻게해야합니까?

답변

0

Oozie는 hadoop에서 작업을 자동화하는 데 완벽한 후보입니다. 이 워크 플로우 스케줄러는 다양한 조치를 취하고 있으며 그 중 하나는 쉘 조치입니다. 쉘 스크립트를 사용하여 원하는 도구를 호출하고 oozie에서 쉘 조치를 작성하여 쉘 스크립트를 호출 할 수 있습니다. 이 셸 작업에는 인수가있을 수 있으며 워크 플로를 실행하는 동안 인수를 전달할 수 있습니다. 쉘 스크립트를 실행하기 위해 oozie의 액션을 사용했지만 쉘 스크립트에서 툴을 호출하는 것은 순전히 테스트되지 않았습니다. 가능하다면 시도해보십시오. 감사.

https://oozie.apache.org/docs/3.3.0/DG_ShellActionExtension.html