2012-08-30 6 views
2

Hadoop Mapreduce 및 돼지 환경에 대한 질문이 있습니다. this thread에서 나는 돼지 라틴어 코드가 돼지 시스템에 의해 검사된다는 것을 알았습니다.정확히 돼지가 Hadoop MapReduce 환경을 사용할 때?

처음에는 돼지가 .jar 파일을지도로 만들고 줄인 다음이 파일을 Mapoverduce 작업을 실행하기 위해 Hadoop Mapreduce 환경에 "보낼"것이라고 생각했습니다.이 작업은 돼지 개발자의 향후 작업입니다.

정확히 Hadoop Mapreduce가 Pig System에서 사용되는 경우? 돼지 라틴 코드의 해석 중에 어딘가에 있습니까? 또는, 내 질문에 다른 말로 물어 보면 : Hadoop Mapreduce의 입력으로 보내지는 Pig의 결과는 무엇입니까?

답장을 보내 주셔서 감사합니다.

답변

3

MapReduce의 역할을 "실행 엔진"이라고 부를 수 있습니다. 시스템으로 돼지는 돼지 라틴어 명령을 하나 이상의 MR 작업으로 번역합니다. 돼지는 그 기능을 수행 할 능력이 없습니다.이 도구는이 작업을 Hadoop에 위임합니다.
필자는 컴파일러와 OS를 유추했다. 컴파일러는 OS가 그것을 실행하는 동안 프로그램을 만듭니다. 이 유추에서 Pig는 컴파일러이고 Hadoop은 OS입니다.
돼지는 조금 더 일을합니다 - 작업을 실행하고, 모니터 등 .. 그래서 컴파일러에 추가로 "쉘"로 볼 수 있습니다.
Pig는 다음과 같은 관점에서 100 % 컴파일러가 아닙니다. 명령 당 MR 작업을 컴파일하지 않습니다. 기존 작업에 대해 수행해야하는 작업에 대한 정보를 전달합니다 (99 %이지만 100 % 확신하지 못함).

2

돼지의 운영자는 Hadoops의 API를 사용하고 있습니다. 따라서 configs에 따라 작업은 로컬 모드 또는 hadoop 클러스터에서 실행됩니다. 돼지는 Hadoop에 출력을 넘기지 않습니다. map-reduce 작업을위한 입력 유형과 데이터 위치를 설정합니다.

돼지 라틴계는 join, filter, group by, order by, union 등과 같은 일련의 표준 데이터 처리 작업을 map-reduce 작업에 매핑합니다. 돼지 라틴어 스크립트는 가장자리가 데이터 흐름이고 노드가 데이터를 처리하는 연산자 인 방향 지정 비순환 그래프 (DAG)를 설명합니다.

관련 문제