2 백만 개 정도의 큰 파일 크기에 Hadoop을 사용하는 것에 대한 설명이 있습니다. 필자는 각 라인을 하나의 파일로 분할하여 Hadoop File System에 복사하고 Mahout을 사용하여 용어 빈도를 계산하기 위해 2 백만 라인으로 구성된 파일 데이터를 가지고 있습니다. Mahout은 분산 방식으로지도 - 축소 계산을 사용합니다. 하지만 이렇게 말하면 2 백만 줄로 구성된 파일이 있다면 각 줄을 용어 - 빈도 계산을위한 문서로 가져 가고 싶습니다. 마침내 필자는 200 만 개의 문서를 갖게 될 하나의 디렉토리를 갖게 될 것이며, 각 문서는 한 줄로 구성됩니다. 이것은 n 파일을위한 n-map을 생성 할 것인가? 이것은 계산에 많은 시간을 필요로합니다. 더 빠른 계산을 위해 문서를 표현하는 다른 방법이 있습니까?하둡 파일 크기 설명
0
A
답변
1
2 백만 개의 파일이 hadoop에 많이 있습니다. 그 다음으로, 2 백만 건의 작업을 실행하는 데 약 2M 초의 오버 헤드가 발생합니다. 이는 몇 일간의 소규모 클러스터 작업을 의미합니다. 나는 문제가 알고리즘 적 성격이라고 생각한다. 계산을지도에 어떻게 맵핑 할 것인가하는 방식으로 패러다임을 줄인다. 당신은 적당한 수의 매퍼를 가질 것이다. 필요한 작업에 대해 몇 줄을 버리면 알고리즘을 제안 할 수 있습니다.
0
Mahout에는 텍스트에 TF와 IDF를 계산하기위한 구현이 있습니다. mahout liberary를 확인하십시오. 및 각 줄을 파일로 나누는 것은 hadoop map reduce framework에서 좋지 않습니다.
관련 문제
- 1. 하둡 매퍼 : 적절한 입력 파일 크기?
- 2. 하둡 dfs.include 파일
- 3. 하둡 스트리밍 : 다른 파일
- 4. 하둡 작업 구성 파일 지정
- 5. 하둡 -
- 6. 하둡 파일 분할 : CompositeInputFormat : 내부 조인
- 7. 하둡 돼지 또는 스트리밍 및 Zip 파일
- 8. 하둡 스트리밍에서 별도의 출력 파일 생성
- 9. 하둡 클러스터를 수집하는 방법 크기/코어 수 정보
- 10. 다른 하둡 노드
- 11. 는 하둡
- 12. 하둡 ClassCastException이
- 13. 하둡 성능
- 14. 하둡 : NoSuchMethodException와
- 15. wordpress 설명 파일
- 16. CAB 파일 API 설명
- 17. VCS 파일 설명 :
- 18. 소켓 파일 설명
- 19. 설명 메이크 파일
- 20. 하둡 손상 블록
- 21. 하둡 다중 출력
- 22. SourcesSafe 6.0 : 검색 파일 설명
- 23. 파일 설명 자의 준비 제어
- 24. 폴링중인 파일 설명 자 닫기
- 25. 가져 오는 파일 설명 :: fstream
- 26. c strcpy 파일 설명 자
- 27. 하둡 맵리 듀스는 이제 하둡 맵리 듀스 작업을 실행 오류
- 28. 하둡 - 내가 하둡 맵리 듀스를위한 자바에서이 같은 클래스 뭔가를
- 29. 와이어 최대 하둡 Jobfactorybean, 내가 무엇을 달성하고자하는 하나의 하둡 노드
- 30. 하둡 스트리밍의 하위 호환성