2017-12-12 7 views
0

여러 객체를 반복적으로 산 출합니다. 그러나 연속적으로 산 출하지는 않습니다. 그러나 밝혀진 바에 따르면, 절인 된 출력 파일이 너무 큽니다 (각각 약 256MB).산 세척을 위해 bz2.BZ2 파일을 더 빠르게 반복적으로 사용합니다.

그래서 open 대신 bz2.BZ2File을 시도했으며 각 파일은 1.3MB가되었습니다. (예, 와우.) 문제는 너무 오래 걸리며 (하나의 물체를 95 초 동안 담그는 것처럼) 속도를 높이고 싶다는 것입니다.

각 개체는 사전이며 대부분 구조가 비슷하지만 계층 구조가 비슷합니다. 거의 동일한 키 집합이며 각 키에 해당하는 각 값은 일반적으로 특정 구조를 갖기 때문에 에). 사전 값 중 많은 부분은 배열 수가 많아서 거기에 많은 0이 나타납니다.

더 빨리 할 수 ​​있도록 조언을 해 줄 수 있습니까?

감사합니다.

+0

'bzip2'가 느린 것으로 알려져있다, 당신은'zlib'을 시도 :

쉽게 설치할 수있는, a python wrapper있다? 멀티 스레드 또는 멀티 프로세싱을 사용하여 속도를 높이려면 무엇을 묻고 있습니까? – georgexsh

+0

@georgexsh 의견을 보내 주셔서 감사합니다. 나는 lz4로 바꿨다. (내 대답에 언급 된 바와 같이), 그저 내가 가진 모든 문제를 해결했다. 압축 시간은 각 개체 당 1 초 미만으로 감소했습니다. – noname

+1

좋은 것을 배울 수 있습니다. – georgexsh

답변

1

블레 이드하게 빠른 압축 알고리즘 인 lz4을 사용했습니다.

pip install lz4 
관련 문제