가정하자 나는 탭은 다음과 같은 형식의 사용자 활동 데이터가 포함 된 파일을 구분 있습니다하둡 - 복합 키
timestamp user_id page_id action_id
내가 각 페이지에 대한 사용자의 동작을 계산하기 위해 하둡 작업을 쓰고 싶어를, 그래서 출력 파일이 보일 것입니다 같은 :
user_id page_id number_of_actions
여기 복합 키와 같은 뭔가가 필요 -이 USER_ID 및 페이지 ID를 포함하는 것입니다. hadoop으로 이것을 수행하는 일반적인 방법이 있습니까? 도움이되는 것을 찾지 못했습니다.
context.write(new Text(user_id + "\t" + page_id), one);
그것은 작동하지만, 나는 그것이 최선의 해결책이 아니다 느낌 : 지금까지 나는 매퍼에서이 같은 키를 방출하고있다.
이 사용 사례에서는 ComparisionChain이 정말 쉽습니다. 감사 –