2012-08-16 3 views
2

나는 계산적으로 강렬한 시뮬레이션을 설정하기 위해 파이썬을 사용하고, 사용자 정의 빌드 된 C- 확장에서 그것을 실행하고 파이썬으로 결과를 처리한다. 시뮬레이션을하는 동안 매 변수마다 고정 길이의 부동 소수점 수 (PyFloatObjects로 변환 된 C double)를 저장하려고합니다. 그러나 시간 단계가 얼마나 될지 미리 알지 못합니다. 시뮬레이션이 끝나면 각 개별 변수에 대해 기록 된 데이터를 목록과 같은 객체로 사용할 수있는 형태로 파이썬에 결과를 전달해야합니다 (예 : a (래퍼 주위) 연속 배열, 조각 별 연속 배열 또는 고정 스트라이드가있는 행렬의 열).파이썬 C 확장자에서 알 수없는 수의 로깅하기

현재 각 변수의 이름을 PyFloatObject 객체를 포함하는 목록에 매핑하는 사전을 만듭니다. 이 형식은 후 처리 단계에서 작업 할 때 적합하지만 제작 단계가 훨씬 빨라질 수 있다고 생각합니다.

시뮬레이션은 이미 많은 계산 작업이 필요하기 때문에 시간은 매우 중요합니다. A. 메모리를 많이 구입하고 실험을 현명하게 설정하면 전체 로그를 RAM에 저장할 수 있습니다. 그러나 현재 사용중인 dict-of-lists 솔루션을 사용하면 모든 변수의 로그를 메모리의 연속 섹션에 보관하면 많은 복사와 오버 헤드가 필요합니다.

내 질문 : 공간/시간 오버 헤드를 최소화하면서 기가 바이트의 메모리를 신속하게 로깅 할 수있는 저명한 방법은 무엇입니까? 여전히 파이썬 데이터 구조가 깔끔합니까?


명확한 설명 : 나는 "로깅"을 말할 때, 나는 시뮬레이션이 끝날 때까지 저장하는 의미. 일단 완료되면 사후 처리 단계가 시작되고 대부분의 경우 결과 그래프 만 저장합니다. 따라서 실제로 디스크에 번호를 저장할 필요는 없습니다.


업데이트 : 결국, 나는 조금 나의 접근 방식을 변경하고 함수의 매개 변수 (유형을 시퀀싱하는 DICT 매핑 변수 이름으로) 로그를 추가했다. 이것에 의해,리스트 나 array.arrays 등의 오브젝트 나, append 메소드를 가지는 오브젝트를 건네 줄 수가 있습니다. PyObject_CallMethodObjArgs 함수를 사용하여 PyList_Append 또는 유사 대신 Append 메서드를 호출하기 때문에 약간의 시간 오버 헤드가 추가됩니다. 배열을 사용하면 메모리로드를 줄일 수 있습니다. 이는 확장 스토리지 유형을 직접 작성하는 것이 가장 좋은 것으로 보입니다. 모두에게 감사드립니다!

+1

numpy를 보았습니까? PyFloatObjects의 일반적인 PyList 대신 numpy 어레이의 double을 생성하는 것은 실제로 C에서 쉽습니다.뿐만 아니라 양측에서 더 빠르며 메모리 효율이 더 좋습니다. – abarnert

+1

또한 실제로 메모리에서 2GB의 기가 바이트를 갖고 디스크에 덤프하는 방법을 찾아야합니까? 아니면 처음에 디스크 구조를 사용할 수 있습니까? (이것은 두 배의 C 배열의 mmap처럼 간단 할 수 있는데, 이는'struct' 모듈을 통해 파이썬에서 해석합니다.) – abarnert

+0

제안에 감사드립니다! Numpy 배열은 크기가 고정되어 있기 때문에, C-data 블록 주위에 수적으로 배열을 배치하여 공간을 확보 한 후 배열 배열 구조를 확장하여 공간을 할당함으로써 효율적으로 처리 할 수있었습니다. 나는 실제로 그 코드를 작성하는 것을 즐긴다. 그러나 C- 세대의 세대가 이미 내가 만든 것보다 더 빨리 뭔가를 만들지 않았는 지 궁금하다. –

답변

2

C 확장 모듈 대신 Cython에서이 작업을 수행하는 것이 좋습니다. Cython은 똑똑하기 때문에 동시에 C 데이터 유형과 파이썬 데이터 유형을 사용할 수있는 경우에도 매우 무난한 방식으로 작업을 수행 할 수 있습니다.

배열 모듈을 확인 했습니까? 단일 콜렉션에 많은 스칼라, 동종 유형을 저장할 수 있습니다.

진정으로 "로깅"하고 CPython으로 반환하는 것이 아니라면 파일을 열어 fprintf '시도해보십시오.

C 확장 모듈을 사용하든 Cython을 사용하든간에 realloc이 여기에 친구가 될 수 있습니다.

+0

1.앞으로 Cython을 확실히 고려할 것입니다.하지만 여분의 번거 로움을 덜 수있는 속도 혜택을 얻을 수 있을지 확신하지 못합니다. 2. 어레이 모듈은 훌륭한 첫 단계, 어쩌면 최종 답변처럼 보입니다. 감사! 3. "로깅"이라는 단어가 의미하는 것이면, 로깅하지 않습니다. 내가 여기서하고있는 일을 설명하는 더 좋은 방법을 알고 있다면 나는 그것에 대해 듣고 싶다. 줄기 "로그"와 관련된 Google 검색은 텍스트 로그, 로그 회전 및 로그에 대한 페이지 뒤의 모든 페이지로 연결된다. 4. realloc은 가지고있는 좋은 친구이지만, 파이썬 객체를 반환하기 때문에 나 자신을 할당하지 않을 가능성이 높습니다. –

+0

Hmmm ... 많이 사용하고 싶지만 어레이 모듈에는 C API가없는 것 같습니다 : –

1

이것은 마치 당신이 찾고있는 것처럼 들리므로 일관된 대답보다는 아이디어가 더 많이 흘러 나올 것입니다. 그렇지 않다면 사과드립니다.

여기서 피하기 위해 노력하는 주요한 점은 수십억 개의 PyFloatObject를 메모리에 저장하는 것입니다.그 주위에는 몇 가지 방법이 있지만, 대신 수십억 개의 일반 C 두 개를 저장하고 PyFloatObject의 시퀀스 인 것처럼 Python에 노출시키는 방법을 모색합니다.

파이썬 (또는 다른 사람의 모듈)이 작업을 수행하려면 numpy 배열, 표준 라이브러리 배열, struct 모듈 위에 간단한 수제 래퍼 또는 ctypes를 사용할 수 있습니다. (확장 모듈을 다루기 위해 ctypes를 사용하는 것은 다소 이상하지만, 그렇게하지 못하게하는 것은 아무것도 없습니다.) struct 나 ctypes를 사용한다면 거대한 파일을 생성하여 메모리 한계를 넘을 수도 있습니다. 창문을 필요에 따라 mmapping.

C 모듈이 실제로 작동하도록하려면 실제로 목록을 반환하는 대신 시퀀스 프로토콜을 충족하는 사용자 지정 개체를 반환해야합니다. 예를 들어 누군가가 foo라고 부르는 경우. getitem (i) _array [i]를 즉시 PyFloatObject로 변환합니다.

mmap의 또 다른 이점은 배열을 반복적으로 만드는 경우 파일로 스트리밍 한 다음 생성 된 파일을 메모리 블록으로 다시 mming하여 사용할 수 있다는 것입니다.

그렇지 않으면 할당을 처리해야합니다. 표준 배열을 사용하는 경우 필요에 따라 자동 확장을 처리하지만 그렇지 않은 경우 직접 처리합니다. 필요한 경우 realloc 및 복사를 수행하는 코드는 그리 어렵지 않고 온라인에서 많은 샘플 코드가 있지만 작성해야합니다. 또는 스트라이드 된 컨테이너를 빌드하는 것을 고려해 볼 수도 있습니다. 스트라이드 된 컨테이너를 빌드하는 것은 파이썬이 아닌 것처럼 연속적 인 것처럼 보이게 할 수 있습니다. (이 작업은 복잡한 버퍼 프로토콜을 통해 직접 수행 할 수 있지만 직접 작성한 시퀀스 구현을 작성하는 것보다 개인적으로 항상 어렵습니다.) C++를 사용할 수 있으면 vector는 자동 확장 배열이고 deque는 strided 컨테이너입니다. 그리고 SGI STL 로프를 가지고 있다면, 당신이하고있는 일을위한 더 나은 보폭의 컨테이너 일 것입니다.)

다른 답변에서 지적했듯이 Cython은이 중 일부를 도울 수 있습니다. "많은 수의 플로트를 파이썬에 노출"하는 부분이 아닙니다. 파이썬 부분을 Cython으로 옮길 수 있습니다. C로 컴파일됩니다. 운이 좋으면 많은 수의 플로트를 다루는 데 필요한 모든 코드가 Cython이 구현하는 Python의 서브 세트 내에서 작동합니다 , 실제 해석 된 코드에 표시해야 할 유일한 것은 상위 수준의 드라이버입니다 (심지어 그렇다고하더라도).

+0

감사합니다! 다른 문제를 아주 분명하게 설정했습니다 :) –

관련 문제