2011-09-23 3 views
1

Hadoop (reference)에서 지원되는 것처럼 보입니다. 그러나 이것을 사용하는 방법은 알지 못합니다. hadoop : Map Reduce 작업을위한 여러 출력을 지원합니다.

내가 원하는 :

a.) Map - Read a huge XML file and load the relevant data and pass on to reduce 
b.) Reduce - write two .sql files for different tables 

내가지도를 선택하고 왜 축소/I는 디스크상의 거주 100k(may be many more)를 통해 XML 파일에 대해이 작업을 수행해야하기 때문이다. 더 좋은 제안을 환영합니다

이 사용 방법을 설명하는 모든 리소스/자습서를 보내 주시면 감사하겠습니다.

나는 Python 사용하고이 사용 streaming

감사합니다 달성하는 방법을 배우고 싶은 것

+0

그럼 ... 궁금한 점은 무엇입니까? 더 자세하게 얘기해 주 시겠어요? –

+0

지도에 다중 출력을 쓰거나 스트리밍 API를 사용하여 작업을 줄일 수 있습니까? – daydreamer

답변

0

우아한 해결책되지 않을 수 있습니다,하지만 당신은 감소 작업의 출력을 변환하는 두 개의 템플릿을 만들 수 있습니다 작업이 완료되면 필요한 형식으로 변환합니다. reduce 출력을 찾아서 템플릿을 적용 할 쉘 스크립트를 작성하여 자동화 할 수 있습니다. 쉘 스크립트를 사용하면 변환이 순차적으로 발생하며 클러스터의 n 개의 시스템을 돌보지 않습니다.

또는 줄이기 작업에서 두 ​​개의 출력 형식을 하나의 파일로 구분 기호로 구분하여 만든 다음 구분 기호로 구분할 수 있습니다. 이 방법에서는 변환이 변환에서 발생하기 때문에 변환은 클러스터의 모든 노드에 분산됩니다.

관련 문제