나는 MapReduce
을 실행하는 데 필요한 6 개의 CSV
개의 파일이 있습니다. 먼저 데이터 (예 : Python
또는 다른 도구)에 합류 한 다음 MapReduce
을 통해 실행 하시겠습니까? 또는 첫 번째 MapReduce
을 완성한 다음 .txt
결과를 다음 MapReduce
에 입력하여 요약하고 다른 데이터 세트에 참여 하시겠습니까? Java
과 Hadoop
을 사용 중이며 내가 온라인에서 찾은 예제에서 무엇인가를 결합했습니다. 내 개인 PC에서 VM을 실행 중이며 Java
및 Hadoop
을 처음 사용합니다.MapReduce의 결과를 다른 MapReduce (java 및 hadoop)에 전달하는 방법
나는 소셜 미디어 데이터로 작업 중이며 처음으로 MapReduce
은 내가 공격적인 것으로 표시된 게시물 ID와 공격적인 것으로 표시된 횟수를 제공합니다. 이제 해당 게시물을 올린 사용자 ID를 제공하는 CSV
에 가입해야합니다. 게시물에 불쾌감을 표시 한 상위 10 명의 사용자와 게시물 수를 계산했습니다.
나를 올바른 길로 인도하는 데 도움이되는 정보가 있으면 알려주세요.
로 쓸 수 있습니까? MapReduce는 파일의 전체 디렉토리를 읽을 수 있습니다. 병합 할 필요가 없습니다. 둘째, Mapreduce를 사용하지 마십시오 ** ** ** 있습니다. 최소한 Spark (PySpark) 나 Hive (SQL을 아는 사람이라면) –
그런데 [Hadoop과 MapReduce는 Java 프로그래밍을 배우기위한 곳이 아닙니다] (https://wiki.apache.org/hadoop/HadoopIsNot) –
@ cricket_007, 예 모든 CSV는 같은 형식입니다. 내가 필요로하는 것들을 같은 매퍼에 가져 가려고 노력할 것이다. 링크를 가져 주셔서 감사 드리며, 좀 더 간단한 Java도 연습 할 것입니다. – AmyJ