나는 python 2.7에서 디렉토리의 모든 파일을 읽고 내용을 집계해야하는 프로그램이 있습니다. 지금, 나는 다른과 같이 후 단일 스레드 하나에이 일을 해요 :파이썬에서 여러 파일을 읽는 것을 최적화하는 방법

def read_file(path): 
with open(path, 'r') as f: 
    return f.read() 
files = map(read_file, paths) 

내가 그러나 나는 각 파일에 대해 기다릴 필요가 없습니다 있도록이 최적화 싶습니다 읽기 전에 읽을 수 다음. 판독, 많은 옵션을 묶는 후, 그러나

from threading import Thread 
import Queue 

def add_to_queue(q, f): 
q = Queue.Queue() 
files = [] 
for f in paths: 
    t = Thread(target=add_to_queue, args = (q, f)) 
    t.daemon = True 
for f in paths: 

: 나는 병렬로이 작업을 수행하는 방법에 대한 검색 및 멀티 프로세싱을 사용하는 등 여러 가지 솔루션을 함께했다, 스레드 및 대기열이 가장 빠른 다음과 같은 인 봤는데 한 번에 하나의 스레드에있는 파일을 다른 파일로 바꾸는 것이 가장 빠른 방법입니다. 내가 여기서 뭔가를 놓치고 있니? 이 작업을 수행하는 가장 효율적인 방법은 무엇입니까?



실제로 하나의 디스크에서 여러 파일을 읽고 있다고 가정하면 작업은 CPU가 아닌 I/O 바인딩이 될 것입니다.

멀티 프로세싱, 큐, 멀티 스레딩, 벤딩, 폴딩, 트위스트, 후프 점프 또는 기타 잼 조각이 없으면 디스크 스핀들이 빠르게 회전하거나 헤드가 실린더를보다 신속하게 움직입니다.

성능 향상을 위해 I/O 성능을 향상 시키거나 솔루션에 대한 다른 접근 방식을 살펴보십시오. (서로 다른 서버가 서로 다른 조각을 제공하는 방식으로 아키텍처를 다시 디자인 할 수 있습니까? 아니면 ...)

파일의 크기와 수에 따라 다음을 고려할 수 있습니다. SSD 드라이브, 여러 드라이브 사용, RAID 컨트롤러 사용, SAN 사용 또는 서버 클러스터 사용.


덕분에, 지금 소프트웨어 솔루션과 하드웨어의 한계를 해결하기 위해 노력을 위해 조금 바보가 된 기분! 최선의 해결책은 소프트웨어를 재 설계하여 계속 진행하기 전에 모든 파일을 읽으 려하지 않고 각 파일을 읽어 들일 때 스트리밍하도록하는 것입니다. –


디스크에서 읽기는 순차적 인 작업이므로 얼마나 많은 프로세스가 있더라도 상관 없습니다. 기본적으로 한 번에 하나만 읽습니다. 동시성은 파일을 읽는 동안 이미로드 된 파일의 특정 문자열이나 정규식 파일 내용을 검색하는 등의 다른 작업을 수행해야하는 경우에 유용합니다.


데프 주 :

