데이터를 Hadoop 파일 시스템과 동기화하고 싶습니다. 이 데이터는 예정된 MapReduce 작업의 입력으로 사용하기위한 것입니다.HBase/HDFS에 데이터를 동기화하고이를 MapReduce 작업의 입력으로 사용하십시오.
이 예는 더 설명 할 수 있습니다
내가 단어의 무리가 포함 된 문서의 입력 스트림을 가지고 있다고하자,이 말은 맵리 듀스 단어 수 작업의 입력으로 필요하다. 따라서 각 문서에 대해 모든 단어를 파싱하여 파일 시스템에 업로드해야합니다. 그러나 동일한 문서가 입력 스트림에서 다시 도착하면 변경 사항 만 파일 시스템에 업로드 (또는 삭제)해야합니다.
데이터는 어떻게 저장해야합니까? HDFS 또는 HBase를 사용해야합니까? 데이터 양은 그다지 크지 않으며 어쩌면 2GB입니다.
HDFS 및/또는 HBase의 입력으로 예약 된 MapReduce 작업을 시작할 수 있습니까?