Hadoop에서는 큰 입력 파일이 작은 파일로 분할되고 맵 기능을 통해 다른 노드에서 처리된다는 것을 알고 있습니다. 또한 InputSplit
을 사용자 정의 할 수 있음을 알아야합니다. 내가 알고 싶은 점은 InputSplit
에 대해 다음과 같은 유형의 사용자 정의가 가능한지 여부입니다.Hadoop의 InputSplit 사용자 정의
큰 입력 파일을 Hadoop으로 가져 왔는데, 파일의 서브 세트, 즉 파일의 행 집합이 필요합니다. 모든 입력 분할과 함께 가기. 큰 파일의 모든 데이터 청크는 파일이 분할되는 방식에 관계없이 이러한 일련의 행을 포함해야합니다.
내 질문이 더 명확하게하기 위해, 우리는 모든 InputSplit
s는 map
기능을 필요로가는 경우에, 파일 내용의 나머지 부분과 입력 파일의 일부 (예를 들어 A
)을 비교해야하는 경우 같은 이 부분은 A
과 비교할 부분이 있습니다. 친절하게 안내합니다.
이것은 파일 시작 부분의 입력 분할 및 공통 데이터에 대한 OP의 질문과 어떤 관련이 있습니까? – harpun
MR 시스템에 대한 OP의 지식이 확실하지 않습니다. 우리가 실제 기초부터 시작해서 OP –
의 의견을 바탕으로 거기에서부터 구축하겠다고 생각했습니다. 예를 들어 MR을 설명해 주셔서 감사합니다. 그러나 Harpun이 개요를 제공 한 InputSplit 문제를 찾고있었습니다. –