2017-11-07 2 views
0

나는 MapReduce을 실행하는 데 필요한 6 개의 CSV 개의 파일이 있습니다. 먼저 데이터 (예 : Python 또는 다른 도구)에 합류 한 다음 MapReduce을 통해 실행 하시겠습니까? 또는 첫 번째 MapReduce을 완성한 다음 .txt 결과를 다음 MapReduce에 입력하여 요약하고 다른 데이터 세트에 참여 하시겠습니까? JavaHadoop을 사용 중이며 내가 온라인에서 찾은 예제에서 무엇인가를 결합했습니다. 내 개인 PC에서 VM을 실행 중이며 JavaHadoop을 처음 사용합니다.MapReduce의 결과를 다른 MapReduce (java 및 hadoop)에 전달하는 방법

나는 소셜 미디어 데이터로 작업 중이며 처음으로 MapReduce은 내가 공격적인 것으로 표시된 게시물 ID와 공격적인 것으로 표시된 횟수를 제공합니다. 이제 해당 게시물을 올린 사용자 ID를 제공하는 CSV에 가입해야합니다. 게시물에 불쾌감을 표시 한 상위 10 명의 사용자와 게시물 수를 계산했습니다.

나를 올바른 길로 인도하는 데 도움이되는 정보가 있으면 알려주세요.

+0

로 쓸 수 있습니까? MapReduce는 파일의 전체 디렉토리를 읽을 수 있습니다. 병합 할 필요가 없습니다. 둘째, Mapreduce를 사용하지 마십시오 ** ** ** 있습니다. 최소한 Spark (PySpark) 나 Hive (SQL을 아는 사람이라면) –

+0

그런데 [Hadoop과 MapReduce는 Java 프로그래밍을 배우기위한 곳이 아닙니다] (https://wiki.apache.org/hadoop/HadoopIsNot) –

+0

@ cricket_007, 예 모든 CSV는 같은 형식입니다. 내가 필요로하는 것들을 같은 매퍼에 가져 가려고 노력할 것이다. 링크를 가져 주셔서 감사 드리며, 좀 더 간단한 Java도 연습 할 것입니다. – AmyJ

답변

3

모든 파일의 형식이 동일하면 여러 입력을 사용할 수도 있고 전체 디렉토리를 입력으로 사용할 수도 있습니다.

이 문제를 해결하기 위해, 우리는() 메소드 FileInputFormat.addInputPaths를 사용할 수있는 모든 CSV를 같은 "형식"되는 다중 입력의 쉼표로 구분 된 목록을 수 있으며, 우리는

FileInputFormat.addInputPaths("file0,file1,...") 
관련 문제