전체 파일에서 1부터 시작하는 시퀀스 번호를 생성해야하는 곳에 문제가 있습니다. 예를 들어Map Reduce를 사용하여 일련 번호 생성
다음과 같이 나는 BIG 파일을 가지고 있다고 할 수 있습니다 : -
ABC, 123
ABB, 111
CCC,
지금 같은 라인의 122
..... N 번호 내 출력은 다음과 같아야합니다 : -
1, abc, 123
2, abb, 111
3, ccc, 122
.... 등등.
mapreduce를 사용하여이 작업을 수행하는 문제는 파일의 모든 분할이 시퀀스를 유지할 수 없기 때문에 다른 맵 기능에 의해 병렬로 처리된다는 것입니다. 이 작업을 위해 단일 감속기를 사용하라고 말하지 마십시오. 나는 전형적인 mapreduce 작업을 사용하여 이것을 병렬로 수행하기를 원하기 때문에 단일 감속기를 사용하고 싶지 않다. 이것이 map-reduce를 사용하여 수행 할 수 있도록 최선의 방법이 있습니까?
이 유용해야한다 : 참조 : 파이썬 (하둡 스트리밍)를 사용하여 위의 알고리즘
샘플 코드 http://blog.data-miners.com/2009/11/hadoop-and-mapreduce -parallel-program.html – Amar
주문을 유지해야합니까? – twid
예, 유지 관리 명령이 필요합니다. – Binary01