2012-09-23 3 views
1

입력을 통해을 반복하여 번 이상 번으로 분할해야합니다. 내가 필요한 이유는이 질문의 범위를 벗어납니다. 필자가 필요로한다고 가정 해 봅시다 (간단한 설명은 데이터 구조를 채우기 위해 입력 분할을 두 번 이상 사용해야하며 분할은 첫 번째 반복 이후 메모리에 수용 될 수 없을 정도로 충분히 클 수 있음)하둡 입력을 여러 번 읽음

나는 FileInputFormatRecordReader을 여러 번 나눠주는 등의 트릭을 여러 번 할 수 있다고 생각하지만, Hadoop에서 "표준"방법이 있는지 궁금합니다. Hadoop에서이를 달성 할 수있는 표준 방법에 대해서는 알지 못했지만 아마도 뭔가를 놓쳤을 것입니다.

아이디어가 있으십니까?

답변

0

스플릿을 여러 번 통과하는 동안 그 데이터 구조에 무엇을하고 싶습니까? (검색, 업데이트 등)

이전의 hadoop 작업 (일부 돼지 스크립트 포함)을 사용하여 작업을 병렬 처리 했습니까?

+0

더 정확하게는 분할에서 데이터에서 회귀 트리를 작성합니다. 메모리에 상주하지 않는 데이터에서 회귀 트리를 작성한다는 것은 데이터를 여러 번 통과시키는 것을 의미합니다. 하나의 MR 작업의지도 측면에서만 로컬로 작업하고 싶습니다. 각 매퍼는 하나의 트리를 학습합니다! – Razvan