2014-04-14 4 views
1

mongodb에 내 시계열 데이터를 저장하는 가장 좋은 방법을 결정하려고합니다. mongo 밖에서 나는 그들과 numpy 배열 또는 pandas DataFrames로 작업하고 있습니다. 많은 사람 (예 : post)이 산세와 이진 저장을 권장하지만 피클을 절대로 장기 보관에 사용해서는 안된다는 인상을 받았습니다. 클래스 구조에 근본적인 코드 변경이있는 데이터 구조에만 해당됩니까? 다른 방법으로 말하자면, 수분이 많은 배열은 아마도 안정적이므로 피클에 좋을 수 있지만 팬더 데이터 프레임은 팬더가 여전히 진화하고 있기 때문에 좋지 않을 수 있습니다.Mongodb에 Numpy 또는 Pandas 데이터 저장

UPDATE :

http://docs.scipy.org/doc/numpy/reference/routines.io.html

NumPy와 자체 바이너리 파일 형식이어야 있습니다 친구가 내가 원하는 정확히 무엇에 좋은 시작이 될 것 같다있는이 저를 지적

장기 저장 안정성. 일단 실제로 작동하게되면 다시 돌아와서 코드를 게시 할 것입니다. 다른 사람이 이미이 일을했다면 나는 당신의 대답을 기꺼이 받아 들일 것입니다.

+1

데이터를 보지 않고 말하기는 어렵지만 단순한 시계열 일뿐 아니라 왜 CSV 파일이 아닌가? –

+0

데이터가 출입 할 때 데이터 처리를 최소화하고 싶습니다. 손에 100,000 개의 부동 소수점 배열이 있고 나중에 애매한 배열로 처리하고 싶다면 저장 용 CSV 파일로 변환하는 것이 비용이 많이 드는 것처럼 보입니다. – TristanMatthews

+0

당신은 답을 얻었지만, 다른 사람들에게는 CSV로 변환하는 것이 느리고 고통 스러울 것이라고 생각한다면, mongodb에로드하려고 할 때까지 기다리십시오. –

답변

1

우리는 숫자 데이터 MongoDB의에서 (판다, NumPy와, 등)에 저장하기위한 오픈 소스 라이브러리를 구축했습니다 : 무엇보다도

https://github.com/manahl/arctic

를, 그것은 사용하기 매우 빠르고 쉽게 데이터를 지원합니다 버전 관리, 다중 데이터 라이브러리 등.