단어 계산을 위해 hadoop 축소기를 구현하고 싶습니다. 내 감속기에서는 해시 테이블을 사용하여 단어 수를 계산합니다.하지만 내 파일이 매우 큰 경우 해시 테이블은 극도의 메모리를 사용합니다. 어떻게이 문제를 해결할 수 있습니까? (예 : 각 감속기가 1,000 만 줄의 파일이 1 억 개의 단어를받는 파일) 해시 테이블에 1 억 개의 키가 필요하다는 단어를 계산하는 방법은 무엇입니까? 현재 구현 된 방식은 Python입니다. 메모리를 줄이는 효과적인 방법이 있습니까?대용량 파일을위한 효율적인 하둡 워드 계산
답변
가장 효과적인 방법은 매퍼에서 단어 빈도의 해시지도를 유지하고 특정 크기 (예 : 100,000 개 항목)에 도달하면 출력 문맥으로 플러시하는 것입니다. 그런 다음지도를 지우고 계속하십시오 (지도 정리 방법으로지도를 플러시하는 것을 잊지 마십시오).
여전히 100 만 단어가 있다면, 당신은 감속기가 끝날 때까지 오랜 시간을 기다리거나 클러스터 크기를 늘리고 더 많은 감속기를 사용해야합니다.
좋아, 나는 지금까지 매퍼에서 결합기를 사용하고있다.하지만 내 감속기가 메모리에 들어갈 수있는 것보다 더 뚜렷한 단어를 받으면 나는 계속이 문제를 안고있다. 이것은 더 큰 Haddop 클러스터를 사는 대답의 일부입니다! ;) – nikosdi
감속기에 도달하면 모든 것을 메모리에 저장할 필요가 없습니다. 물론 각 키와 출력에 대한 카운트를 추가하면됩니다. 감속기에 해시 맵을 유지하려면 어떻게해야합니까? –
감속기는 매퍼 A1과 A2에서 단어 A를받을 수 있습니다. 감속기는 또한 카운트를 수행해야합니다 ....... A1은 {N, 100}을 보내고 A2는 {N, 100}을 전송합니다 ... – nikosdi
- 1. 대용량 파일을위한 효율적인 인라인 검색 및 대체
- 2. 효율적인 계산
- 3. iBooks와 같은 PDF 파일을위한 효율적인 썸네일 생성
- 4. MS 워드 테이블 자동 계산
- 5. 효율적인 조회수 계산 방법은 무엇입니까?
- 6. SQL의 효율적인 여는 계산 방법
- 7. 이미지 ROI에서 효율적인 히스토그램 계산
- 8. 배열에 대한 빠르고 효율적인 계산
- 9. 효율적인 경험적 CDF 계산/저장
- 10. 가장 효율적인 관계 계산 방법
- 11. Yesod를 사용한 효율적인 대용량 파일 업로드
- 12. 하둡 -
- 13. 하둡 파일 크기 설명
- 14. 대용량 목록의 고유 요소 수를 효율적으로 계산
- 15. 하이브/하둡 /을 Flatfile : 효율적인 결합하는 방법과 CONCAT 행을 무엇
- 16. 하둡 성능
- 17. 더 효율적인 교차로 수 계산 방법은 무엇입니까?
- 18. 정규식을 사용하여 효율적인 단어 계산 방법
- 19. 2 차원 데이터 세트의 효율적인 수치 계산
- 20. 는 하둡
- 21. 하둡 ClassCastException이
- 22. 하둡 : NoSuchMethodException와
- 23. 하둡 스트리밍 다중 라인 입력
- 24. csdef 파일을위한 편집기가 있습니까?
- 25. 작은 파일을위한 해쉬 알고리즘
- 26. 정적 파일을위한 Tomcat 설정
- 27. .vssettings 파일을위한 스키마?
- 28. 하둡. 결과를 하나의 값으로 줄임
- 29. 대용량 SQL 데이터의 쿼리 및 개수를 저장하는 가장 효율적인 방법
- 30. 효율적인 성능으로 코어 데이터 객체 관계 설정 (대용량 데이터 세트)
누락 된 부분이 있습니까? 그러나 단어를 셀 수만 있다면 해시 테이블을 100m 오래 필요가 없습니다. 반복을 많이 할 것입니다. 예를 들어 'the'라는 단어에 대해 250,000 개의 항목을 얻을 수 있습니다. 'collections.Counter'를 증가시키는 함수를 통해 라인별로 데이터를 스트리밍 할 수 없습니까? – kreativitea
죄송합니다. 실수로 100Milion의 뚜렷한 단어를 원한다면 해시 테이블에 100 만 개의 항목이 필요하다고 말하고 싶습니다. – nikosdi
1 억 개의 별개 단어가 있습니까? http://oxforddictionaries.com/words/how-many-words-are-there-in-the-english-language –