2014-12-10 4 views
0

나는 파이썬 드라이버를 사용하여 몇 가지 시계열 데이터를 얻고 있습니다. 나는 데이터를 빈약 한 배열에 갖고 싶어.카산드라 큰 파이썬 쿼리

그래서 문제는 pagedResult를 변환하는 것입니다. 이는 numpy 배열로 나타납니다. 현재 나는 단지 for row in result: out.append(row.price)입니다. 페이지 매김 때문에 매우 느립니다. 어떻게 빨리 약 10^7 행을 읽고 NumPy와로받을 수 있나요 나는 statement = SimpleStatement(select_query, fetch_size=10**6)를 사용하여 시도하지만

cassandra.ReadTimeout: code=1200 [Coordinator node timed out waiting for replica nodes' responses] message="Operation timed out - received only 0 responses." info={'received_responses': 0, 'data_retrieved': False, 'required_responses': 1, 'consistency': 1}``` 

를 얻을?

답변

3

데이터가 여러 파티션에있는 경우 다른 파티션을 비동기 적으로 쿼리해야합니다.

일부 경계를 알고있는 경우 다른 복제본에서 여러 파티션의 조각을 한 번에 쿼리 할 수 ​​있습니다.

https://github.com/datastax/python-driver/blob/master/docs/performance.rst

:

병렬로 비동기 쿼리를 사용하여 파이썬 드라이버의 최대한의 성능을 얻기에 대한 권장 사항에 대한 문서에서 다음 페이지를 참조하십시오