2011-08-21 8 views
1

나는 Cassandra를 사용하는 트위터 복제본의 예가 아는 사람이지만 Twitter를 복제하지 않고 트위터를 통해 오는 트윗을 저장하는 데 Cassandra 스키마를 공유하는 사람이 있는지 관심이있었습니다. 스트리밍 API?Twitter Cashandra 데이터 스키마 Twitter Streaming API

+0

당신이 여기에 대한 업데이트를해야합니까? 당신에게 유용한 계획이 있습니까? – felipeclopes

+0

나는 Cassandra를 포기하고 대신 사용자 정의 스키마로 HBase를 사용했습니다. –

답변

6

대용량 데이터를 처리 한 후 어떤 종류의 쿼리를 수행 하느냐에 따라 달라집니다. 이전 질문에서 볼 수 있듯이 "일괄 트위터 스트리밍 API 트윗"을 사용하면 큰 일괄 처리를 원할 것입니다 그 위에.

로드 균형 조정에 대해 걱정할 필요가 있습니다. 클러스터의 각 노드가 쓰기 부하의 1/n을 처리하고 데이터의 1/n을 포함하는지 확인해야합니다. 행 키로 상태 ID를 사용하여 트윗 당 하나의 행을 만들 수 있습니다.

그러나 "주어진 사용자의 모든 트윗을주세요"와 같은 쿼리를 수행하려면 위의 스키마에서 모든 데이터를 검사해야하므로 약간 더 복잡한 스키마가 필요합니다. 행마다 여러 개의 트위트를 삽입 할 수 있습니다. 행 키는 사용자 ID이고, 열 키는 트윗 ID이고 트윗은 값입니다. 그런 다음 get_slice를 사용하여 해당 쿼리에 응답 할 수 있습니다.

좋은 (다소 관련) 블로그 게시물 : http://blog.insidesystems.net/basic-time-series-with-cassandra