몇 가지 고정 열 (최대 10 개 열)의 조건에 의해 결정되는 큰 판다 데이터 프레임 (수백만 행)의 행에 대해 집계 연산 (합계)을 만들고 싶습니다. 이러한 열은 정수 값만 갖습니다.데이터 프레임을 쿼리하는 가장 빠른 방법
제 문제는이 작업을 (쿼리 + 집계) 수천 번 (~ 10000 번) 수행해야한다는 것입니다. 집계 부분에는 단순한 합계만큼 최적화 할 것이별로 없다고 생각합니다. 이 작업을 수행하는 가장 효율적인 방법은 무엇입니까? 각 쿼리의 처리 속도를 높이기 위해 조건 열에 '인덱스'를 작성할 수있는 방법이 있습니까?
을 안하지만, 수 조건에 대한 몇 가지 코드를 게시 하시겠습니까? 'all()'또는'and' 단락 회로를 사용하고 있습니까? 산술 연산을 사용하여 몇 가지 조건을 동시에 테스트 할 수 있습니까? – Roberto
작전 시간을 정하고 실제로 시간을 내주는 것이 무엇인지 확인해야합니다. (예 : ipython에서''% prun/% timeit''을 사용하십시오). 판다의 많은 작업은 후드에서''numexpr''을 사용하여 색인 생성 속도가 매우 빠릅니다. – Jeff
그들은 0.13의 몇 가지 새로운 기능 (0.13rc1이 나와 있음)을 유용하게 사용할 수 있습니다. http://pandas.pydata.org/pandas-docs/dev/enhancingperf.html#expression-evaluation-via-eval-experimental ; 당신은 또한 메모리 내 HDFStore를 시도 할 수 있습니다! http://pytables.github.io/cookbook/inmemory_hdf5_files.html (HDFStore에 addl 드라이버 인수를 전달하면됩니다) – Jeff