2014-12-28 3 views
0

2 노드 클러스터에서 카산드라를 실행합니다 (향후 확장 될 예정 임).카산드라 : 클러스터에 대량 테스트 데이터로드

몇 백만 행의로드 테스트 데이터를로드하려고합니다.

나는 이것을 수행 할 파이썬 스크립트가 있습니다.

두 노드에서 동시에 스크립트를 실행해야합니까? 아니면 카산드라가 복제 할 수있게해야합니까?

(클러스터는 다른 지역의 AWS EC2 서버에 있습니다.)

답변

2

클러스터에 두 개의 노드가있는 경우 두 노드 모두에 데이터를 삽입 할 필요가 없습니다. 카산드라는 파티션 키와 복제 요소를 기반으로 노드 전체에 데이터를 배포합니다.

카산드라의 데이터 분포를 이해하기위한 좋은 출발점 here이다 : 나는이 작업을 수행하는 파이썬 스크립트가

1

.

파이썬 카산드라 드라이버를 DataStax (예 : http://datastax.github.io/python-driver/getting_started.html#connecting-to-cassandra)로 살펴보고 실제 쓰기에 대한 지침을 따르는 것이 좋습니다. 그 드라이버에는 편리한 비동기 메소드가 있습니다.

실제 쓰기 자체와 두 노드 모두에 쓸지 어떨지에 관해서는 안됩니다. 이것은 녀석과 고시꾼을위한 직업입니다.

Datastax Community Edition (btw)을 사용한다고 가정하면 EC2 Multiregion Snitch (http://www.datastax.com/documentation/cassandra/2.0/cassandra/architecture/architectureSnitchEC2MultiRegion_c.html)를 활용해야합니다. 설치하고 사용하는 것은 매우 간단합니다.

관련 문제