2012-10-08 3 views
3

~ 500GB 크기의 데이터 작업을 시작하려고합니다. 주어진 시간에 파이썬으로 데이터의 작은 컴포넌트에 액세스하고 싶습니다. 나는 PyMongo (또는 Hadoop - thanks Drahkar)와 함께 PyTables 또는 MongoDB를 사용할 것을 고려하고 있습니다. 다른 파일 구조/DB를 고려해야합니까?파이썬으로 큰 데이터 저장 및 액세스

내가 수행 할 작업 중 일부는 한 지점에서 다른 지점까지 거리를 계산하는 것입니다. 부울 테스트 등의 인덱스를 기반으로 데이터를 추출합니다. 결과는 웹 사이트에서 온라인으로 표시 될 수 있지만 현재는 분석을 위해 데스크톱에서만 사용하도록되어 있습니다. 당신이 심각하게 빅 데이터 처리에 데이터 처리에서 찾고 있다면

건배

+1

downvote 경우 의견을 남기려면 요구 사항이 있어야합니다. 왜이 두 번이나 다운 뉘 였을까요? 나는 그것이 싫다면 질문을 downvote 처음이지만,이 질문은 무리한 것 같지 않습니다 ... – Pete

+2

[HDF5] (http://stackoverflow.com/a/7891137/190597)을 (를) 볼 수 있습니다. – unutbu

+0

unutbu - 좋은 생각입니다. PyTables는이를 기반으로합니다. 필자는 ATpy (http://atpy.github.com/)라는 천문학 데이터 읽기/쓰기 패키지의 공동 개발자이며 HDF5를 사용하지만 데이터의 하위 세트에 액세스하려면 암호. 결국 가장 좋은 해결책 일 수 있지만, 다른 사람들이 약속을하기 전에 어떤 제안을 할 수 있는지를 기다리고 있습니다. – ebressert

답변

1

은, 내가보기 엔 하둡에보고 제안했다. 한 제공자는 Cloudera (http://www.cloudera.com/)입니다. 이 도구는 데이터 처리를 위해 많은 도구가 포함 된 매우 강력한 플랫폼입니다. 파이썬을 비롯한 많은 언어가 데이터에 액세스하기위한 모듈을 가지고 있으며, 일단 당신이 다양한 mapreduce, Hive 및 hbase 작업을 빌드하면 hadoop 클러스터는 상당한 양의 처리를 할 수 있습니다.

+0

제안 해 주셔서 감사합니다. 나는 하둡도 보았다. 내 질문을 편집하여 포함 시키십시오. 나는 합의가 어떻게 될지 궁금하다. Hadoop에 대한 Python 지원이 MongoDB와 비교가 능숙합니까? – ebressert

+0

누군가 Riak for Python을 제안했습니다. https://github.com/basho/riak-python-client. 클로저에 더 가까워졌습니다. 내가 뭔가를 발견하면 유사한 질문이있는 경우에 대비하여 여기에 무언가가 게시됩니다. – ebressert

+0

ohongoop 대 mongodb, couchdb, couchbase 등의 목적은 중요합니다. Mongodb, couchdb 및 couchbase는 모두 hadoop이 저장 및 분석 클러스터 인 nosql 솔루션입니다. 그래서 당신이 필요로하는 것은 당신이 특별히 그것을 위해 사용해야하는 것에 크게 의존합니다. – Drahkar

관련 문제