지도 작업이 MapTracker를 통해지도 작업에 공급되어야하는 입력 레코드 집합을 생성해야하는 필요성이 있습니다.hadoop지도 작업에서 입력을 생성하는 방법
나는 해결책을 생각할 수 없어 당신의 도움이 필요합니다.
세부 정보 : 웹 크롤러를 작성할 계획입니다. 초기 루트 레벨 웹 페이지는 mapreduce 작업에 입력됩니다. 매퍼/감속기는 웹 페이지를 가져오고 페이지에서 링크를 수집합니다. 이 링크는 mapreduce 작업의 입력으로 처리되어야합니다. 그래서 저는 제 1 루트 노드에 대한 작업을 처리 할 수 있도록 이러한 링크를 구직자에게 보냅니다. 추가 할 수있는 단말 조건 (예 : 링크 정규식 검색)이 있습니다. regex가 일치하면 map (또는 reduce) 작업에 의해 jobtracker에 다시 저장되지 않습니다.
생성하고자하는 데이터의 종류와 데이터 유형이 같으므로 일반적인 질문에 더 많은 설명을 추가하십시오. –
추가 세부 사항. 도움이되는 희망. –
이것은 흥미 롭습니다! 나는 실행 시간에 당신이 입력을 증가시킬 수 있는지조차 모른다. 그것이 바로 당신이 원하는 방식입니다. – Amar