2013-08-13 3 views
-1

R 언어를 사용하여 Mapper 및 Reducer 프로그램을 작성했습니다. 나는 hadoop에서 R 프로그램을 실행하기 위해 Hadoop 스트리밍 유틸리티를 사용하고있다. 내 제약 조건은 매퍼 프로그램에 2 개의 텍스트 파일을 입력해야한다는 것입니다. 그것을 성취하는 방법? 가장 빠른 시간에 친절하게 도와주세요. 당신은 둘 다 표준 입력을 통해 스트리밍되는 여러 입력 파일을 지정하면 하나를 입력하여 hadoop 시스템에서 R 프로그램 구현

, 나는 HDFS에있는 입력 파일을 배치하고 다중 입력을 위해 그것을 달성하는 방법을 표준 입력 곧 명령을 사용하여 참조하고는

답변

0

을 파일 . 기록의 순서는 임의적이다. 특정 시간에 실제로 읽고있는 것이 무엇인지 파악하려면 Sys.getenv("map_input_file")으로 전화하십시오.

+0

가입을 원할 경우 rmr2 패키지를 사용할 수 있습니다.이 패키지에는 이러한 잔인한 정보가 처리됩니다. – piccolbo

0

이것은 great tutorial이며 Hadoop Streaming을 Python으로 사용하는 방법을 가르쳐줍니다.

[email protected]:/usr/local/hadoop$ 
bin/hadoop jar contrib/streaming/hadoop-*streaming*.jar \ 
-file /home/hduser/mapper.py -mapper /home/hduser/mapper.py \ 
-file /home/hduser/reducer.py -reducer /home/hduser/reducer.py \ 
-input /user/hduser/gutenberg/* -output /user/hduser/gutenberg-output 

-input /user/hduser/guttenberg/* 

가 HDFS에있는 모든 파일을 읽을 것인가 : 그러나, 튜토리얼의 예는 다음과 같이 수행하여 디렉토리에서, 귀하의 경우,이 개 파일을 3 권의 책을 읽고 폴더에 저장하고 처리하십시오.

호프가 문제를 해결할 수 있기를 바랍니다.