파일 모음이 있는데 각 파일에는 작성자 이름과 사용 단어가 들어 있습니다. 이제 각 저자의 상위 N 단어를 계산하기 위해 map-reduce 코드를 작성하려고합니다. 까다로운 부분은 파일에 여러 명의 작가가 포함되어있을 수 있습니다. 내 map-reduce 프레임 워크를 어떻게 설계해야합니까? 의사 코드와 약간의 설명으로 충분합니다. 감사합니다mapreduce 프레임 워크에서 각 저자의 최상위 단어 수를 계산합니다.
0
A
답변
0
한 MR 작업은 저자 + 단어 및 값 계산의 복잡한 키를 만들어 각 저자가 사용한 단어를 계산합니다.
두 번째 MR 작업은 이들 쌍 (저자 + 단어, 개수)을 읽고이를 작성자 + 집계, 단어 + 집계로 매핑합니다. 작성자별로 순서대로 키를 순서화하고, 카운트에 상관없이 동일한 감소 그룹에있는 것과 동일한 작성자의 두 키를 처리하기 위해 그룹화 (가장 큰 것부터 가장 작은 것) 및 그룹화를 위해 비교기를 작성하십시오. 저자를위한 모든 쌍이 동일한 파티션으로 이동하려면 분할자가 필요할 것입니다. 감속기는 각 작성자에 대해 한 번 호출되며 값 (단어 + 수)은 가장 큰 계산을 먼저 수행하는 반복 가능 프로그램에 의해 제공됩니다. 감속기에서 Iterable의 첫 번째 N 레코드에서 작성자, 단어 및 개수를 씁니다.
관련 문제
- 1. 스택의 프레임 수를 계산합니다.
- 2. 단어 목록에있는 문자의 수를 계산합니다.
- 3. 프롤로그에서 반복되는 단어 수를 계산합니다.
- 4. 저자의 HTML 단어
- 5. Mapreduce for Java Appengine을 사용하여 순 사용자 수를 계산합니다.
- 6. 각 행의 배경색이 같은 셀 수를 계산합니다.
- 7. 텍스트 문서 내 단어 수를 계산합니다.
- 8. 파이썬에서 구두점 문자 사이의 단어 수를 계산합니다.
- 9. PHP는 rtf 파일 단어 수를 계산합니다.
- 10. 각 참여자의 단어 수를 계산하십시오.
- 11. 각 하위 지역의 점 수를 계산합니다.
- 12. MySQL에서 각 시간 간격의 레코드 수를 계산합니다.
- 13. 이미지의 각 행의 바이트 수를 계산합니다.
- 14. 배열을 사용하여 각 알파벳 수를 계산합니다.
- 15. WPF 비디오의 프레임 수를 계산합니다. C#
- 16. 함수의 모음 수를 계산합니다.
- 17. 텍스트 파일에서 다른 클래스의 단어 수를 개별적으로 계산합니다.
- 18. 버튼을 클릭 할 때 datagridview 열의 단어 수를 계산합니다.
- 19. 매월 작업 수를 계산합니다.
- 20. mysql의 각 행에있는 열의 단어 수를 찾으십시오.
- 21. 처음으로 Hadoop MapReduce 단어 수를 계산하는 데 실패 했습니까?
- 22. 데이터 프레임 또는 행렬에서 0이 아닌 수를 계산합니다.
- 23. .txt의 단어 길이를 계산합니다.
- 24. 계산 항목 수를 기준으로 페이지 수를 계산합니다.
- 25. mys 테이블에서 단어 발생을 계산합니다.
- 26. 문자열의 단어 수를 계산합니까?
- 27. 파일의 줄 수를 계산합니다.
- 28. 목록에서 공백 수를 계산합니다.
- 29. 특정 요소 수를 계산합니다.
- 30. daterange에서 주 수를 계산합니다