영어 단어 2GB (대략) 크기의 파일을 작성하는 프로그램을 작성하려고합니다. 그리고이 2GB 파일에서 외부 정렬을 사용하여 단어의 빈도를 인쇄하려고합니다. 외부 정렬 후 카운트 (빈도)를 인쇄 할 수 있습니다.거대한 파일 (2GB)에서 단어의 빈도를 한 줄당 하나씩 계산하려면 어떻게해야합니까?
답변
파이썬에는 반복 가능한 값을 정렬하는 내장 함수 sorted
이 있습니다. 그러나 버전 2.7 이상에서는 사물의 빈도를 세는 내장형 컬렉션이 있습니다. 큰 파일에 한 줄에 한 단어가 있다고 가정하면 다음을 수행 할 수 있습니다.
from collections import Counter
with open(<giant-dictionary>) as words:
counts = Counter(words)
이 작업은 몇 분 정도 소요됩니다.
왜 파이썬을 사용하지 않습니까? (외부 유틸리티는 속도가 _ 문제로 인해 문제가 될 수 있습니다.) – katrielalex
파이썬에서는 초보자이지만 좋은 대답 인 것처럼 보이지만 의심의 여지가 있습니다.이 카운터는 반복되는 단어를 제거합니까? – Charliemops
@ TheCharliemops 그것은 이유로 "카운터"라고합니다. 그것은 그것들을 저장하는 대신 그것으로 공급되는 것을 센다. 단어를 반복하면 해당 단어의 수가 증가합니다. –
- 1. 한 줄당 문자 수 및 한 줄당 문자 수 제한
- 2. Lucene에서 여러 단어의 빈도를 얻는 방법?
- 3. 패딩을 사용하여 계산하려면 어떻게해야합니까?
- 4. PHP로 파일 다운로드 - 한 번에 하나씩 다운로드!
- 5. JPA로 마지막 페이지를 계산하려면 어떻게해야합니까?
- 6. 자바를 사용하여 해시 테이블에있는 단어의 빈도를 계산하는 방법
- 7. 페이지 뷰 수를 계산하려면 어떻게해야합니까?
- 8. 한 번에 하나씩 커밋합니다.
- 9. 이 조건을 읽고 myval을 계산하려면 어떻게해야합니까?
- 10. 두 날짜의 기간을 계산하려면 어떻게해야합니까? 나는이 쿼리를
- 11. objcopy가있는 거대한 이진 파일
- 12. 한 번에 하나씩 표시 하시겠습니까?
- 13. Perl을 사용하여 datetime 비교를하고 델타를 계산하려면 어떻게해야합니까?
- 14. 카디 전 곱을 반복적으로 계산하려면 어떻게해야합니까?
- 15. 이 클래스로 레터 박스 크기를 계산하려면 어떻게해야합니까?
- 16. 휴대 전화 카메라의 시야를 계산하려면 어떻게해야합니까?
- 17. 다면체의 질량 및 관성 모멘트를 계산하려면 어떻게해야합니까?
- 18. date1을 date2와 얼마나 비교했는지 계산하려면 어떻게해야합니까?
- 19. C - 시스템 (""); 한 번에 하나씩 실행
- 20. Windows Server 2008 R2에서 JVM이 2GB에서 멈춤
- 21. TextArea는 10 줄 및 한 줄당 35 자입니다.
- 22. 형식 XML, JDom과 함께 한 줄당 하나의 속성
- 23. 한 페이지에 거대한 40000 페이지 분량의 PDF 파일, itextsharp, outofmemoryexception
- 24. WPF에서 거대한 tif를 처리하려면 어떻게해야합니까?
- 25. 거대한 XML 파일 유효성 검사
- 26. TextView에서 한 단어의 텍스트 색상 변경
- 27. 단어 문서에서 한 단어의 스타일을 설정하는 방법
- 28. 한 번에 하나씩 UiScrollView에 UiImageView 추가 ... 어떻게?
- 29. Validator - 한 번에 하나씩 오류 표시
- 30. 모든 순열을 한 번에 하나씩 스왑 함
왜 파이썬 응답 만 원한다면 자바, C++, C 및 펄을 태그하고 있습니까? – Charliemops
이 숙제가 있습니까? – NPE