매우 큰 컬렉션을 읽고 각 문서에서 몇 가지 작업을 수행해야합니다.Pymongo parallel_scan
효율성 향상을 위해 여러 작업에서 이러한 작업을 수행하기 위해 pymongo의 parallel_scan을 사용하고 있습니다.
cursors = mongo_collection.parallel_scan(6)
if __name__ == '__main__':
processes = [multiprocessing.Process(target=process_cursor, args=(cursor,)) for cursor in cursors]
예상 실행을 시작으로 다음 커서를 사용하는 프로세스를 시작하지만
는, 모든 프로세스는 일부 종료 마지막으로 하나의 프로세스 만이 오랜 시간 동안 계속 실행을 완료합니다.parallel_scan이 커서간에 문서를 동일하게 분배하지 않기 때문에이 모양이됩니다. 모든 커서를 거의 동일한 수의 문서로 만들려면 어떻게합니까?