구조화 된 데이터가 들어있는 hdtf에 큰 파일이 저장되어 있다고 가정 해보십시오. 이제 목표는 두 번째 열 값이 둘 사이에있는 파일의 모든 행처럼 파일의 일부 데이터 만 처리하는 것입니다. hdfs가 파일의 관련 부분을 스트리밍하는 대신 매퍼에게 모든 것을 스트리밍하는 것과 같이 MR 작업을 시작할 수 있습니까?HDFS 파일의 일부에서 MR 작업 실행
이유는 필요한 부분에서만 작업 속도를 높이려는 것입니다. 아마 하나의 접근 방식은 새로운 파일을 만들기 위해 MR 작업을 실행하는 것입니다. 그러나 나는 그것을 피할 수 있는지 궁금합니다.
목표는 HDFS에 데이터를 보관하는 것이므로 데이터베이스에서 읽고 쓰고 싶지 않습니다.
0.92에서 도입 된 코 프로세서는 필터와 유사한 데이터를 필터링하는 데에도 사용할 수 있습니다. 코 프로세서와 필터의 차이점은 무엇인지 정확히 알 수 없습니다. 내가 생각할 수있는 한 가지는, 필터는 클라이언트에서 정의되고 보조 프로세서는 서버에서 정의됩니다. 따라서 코 프로세서는 여러 클라이언트에서 재사용 할 수 있습니다. 한가지 주목해야 할 것은 필터와 보조 프로세서가 모두 서버에서 실행되고 클라이언트에 전송 된 데이터를 줄이는 것입니다. –
좋은 지적 Praveen. 하지만 내 이해는 코 프로세서는 기본 HDFS M/R이 아닌 기본 전용입니다. –
Chris - HBase를 기본으로하지 않습니까? MR에서 사용되는 보조 프로세서를 중단시키는 것은 무엇입니까? HBase 그룹에 코 프로세서와 필터의 차이점에 대한 쿼리를 게시했지만 응답이 없습니다. –