나는 계산적으로 강렬한 시뮬레이션을 설정하기 위해 파이썬을 사용하고, 사용자 정의 빌드 된 C- 확장에서 그것을 실행하고 파이썬으로 결과를 처리한다. 시뮬레이션을하는 동안 매 변수마다 고정 길이의 부동 소수점 수 (PyFloatObjects로 변환 된 C double)를 저장하려고합니다. 그러나 시간 단계가 얼마나 될지 미리 알지 못합니다. 시뮬레이션이 끝나면 각 개별 변수에 대해 기록 된 데이터를 목록과 같은 객체로 사용할 수있는 형태로 파이썬에 결과를 전달해야합니다 (예 : a (래퍼 주위) 연속 배열, 조각 별 연속 배열 또는 고정 스트라이드가있는 행렬의 열).파이썬 C 확장자에서 알 수없는 수의 로깅하기
현재 각 변수의 이름을 PyFloatObject 객체를 포함하는 목록에 매핑하는 사전을 만듭니다. 이 형식은 후 처리 단계에서 작업 할 때 적합하지만 제작 단계가 훨씬 빨라질 수 있다고 생각합니다.
시뮬레이션은 이미 많은 계산 작업이 필요하기 때문에 시간은 매우 중요합니다. A. 메모리를 많이 구입하고 실험을 현명하게 설정하면 전체 로그를 RAM에 저장할 수 있습니다. 그러나 현재 사용중인 dict-of-lists 솔루션을 사용하면 모든 변수의 로그를 메모리의 연속 섹션에 보관하면 많은 복사와 오버 헤드가 필요합니다.
내 질문 : 공간/시간 오버 헤드를 최소화하면서 기가 바이트의 메모리를 신속하게 로깅 할 수있는 저명한 방법은 무엇입니까? 여전히 파이썬 데이터 구조가 깔끔합니까?
명확한 설명 : 나는 "로깅"을 말할 때, 나는 시뮬레이션이 끝날 때까지 저장하는 의미. 일단 완료되면 사후 처리 단계가 시작되고 대부분의 경우 결과 그래프 만 저장합니다. 따라서 실제로 디스크에 번호를 저장할 필요는 없습니다.
업데이트 : 결국, 나는 조금 나의 접근 방식을 변경하고 함수의 매개 변수 (유형을 시퀀싱하는 DICT 매핑 변수 이름으로) 로그를 추가했다. 이것에 의해,리스트 나 array.arrays 등의 오브젝트 나, append 메소드를 가지는 오브젝트를 건네 줄 수가 있습니다. PyObject_CallMethodObjArgs 함수를 사용하여 PyList_Append 또는 유사 대신 Append 메서드를 호출하기 때문에 약간의 시간 오버 헤드가 추가됩니다. 배열을 사용하면 메모리로드를 줄일 수 있습니다. 이는 확장 스토리지 유형을 직접 작성하는 것이 가장 좋은 것으로 보입니다. 모두에게 감사드립니다!
numpy를 보았습니까? PyFloatObjects의 일반적인 PyList 대신 numpy 어레이의 double을 생성하는 것은 실제로 C에서 쉽습니다.뿐만 아니라 양측에서 더 빠르며 메모리 효율이 더 좋습니다. – abarnert
또한 실제로 메모리에서 2GB의 기가 바이트를 갖고 디스크에 덤프하는 방법을 찾아야합니까? 아니면 처음에 디스크 구조를 사용할 수 있습니까? (이것은 두 배의 C 배열의 mmap처럼 간단 할 수 있는데, 이는'struct' 모듈을 통해 파이썬에서 해석합니다.) – abarnert
제안에 감사드립니다! Numpy 배열은 크기가 고정되어 있기 때문에, C-data 블록 주위에 수적으로 배열을 배치하여 공간을 확보 한 후 배열 배열 구조를 확장하여 공간을 할당함으로써 효율적으로 처리 할 수있었습니다. 나는 실제로 그 코드를 작성하는 것을 즐긴다. 그러나 C- 세대의 세대가 이미 내가 만든 것보다 더 빨리 뭔가를 만들지 않았는 지 궁금하다. –