~ 500GB 크기의 데이터 작업을 시작하려고합니다. 주어진 시간에 파이썬으로 데이터의 작은 컴포넌트에 액세스하고 싶습니다. 나는 PyMongo (또는 Hadoop - thanks Drahkar)와 함께 PyTables 또는 MongoDB를 사용할 것을 고려하고 있습니다. 다른 파일 구조/DB를 고려해야합니까?파이썬으로 큰 데이터 저장 및 액세스
내가 수행 할 작업 중 일부는 한 지점에서 다른 지점까지 거리를 계산하는 것입니다. 부울 테스트 등의 인덱스를 기반으로 데이터를 추출합니다. 결과는 웹 사이트에서 온라인으로 표시 될 수 있지만 현재는 분석을 위해 데스크톱에서만 사용하도록되어 있습니다. 당신이 심각하게 빅 데이터 처리에 데이터 처리에서 찾고 있다면
건배
downvote 경우 의견을 남기려면 요구 사항이 있어야합니다. 왜이 두 번이나 다운 뉘 였을까요? 나는 그것이 싫다면 질문을 downvote 처음이지만,이 질문은 무리한 것 같지 않습니다 ... – Pete
[HDF5] (http://stackoverflow.com/a/7891137/190597)을 (를) 볼 수 있습니다. – unutbu
unutbu - 좋은 생각입니다. PyTables는이를 기반으로합니다. 필자는 ATpy (http://atpy.github.com/)라는 천문학 데이터 읽기/쓰기 패키지의 공동 개발자이며 HDF5를 사용하지만 데이터의 하위 세트에 액세스하려면 암호. 결국 가장 좋은 해결책 일 수 있지만, 다른 사람들이 약속을하기 전에 어떤 제안을 할 수 있는지를 기다리고 있습니다. – ebressert