2012-11-26 3 views
4

카산드라의 열 패밀리에 새 열을 삽입하면 정확히 얼마나 많은 바이트가 디스크에 저장되는지 알고 싶습니다. 필자의 가장 큰 문제점은 컬럼이 Snappy로 압축 될 때이 정보를 알아야한다는 것입니다. 원시 바이트 계산을 알고 있지만 데이터의 다양성으로 인해 압축 비율을 정확하게 계산할 수 없습니다. 카산드라 (Cassandra) 코드베이스에서이 바이트 수를 찾는 위치에 대한 모든 정보가 환영됩니다.카산드라 압축 코드베이스

미리 감사드립니다.

답변

2

압축은 보장 된 압축 비율을 제공하지 못합니다. 얻을 수있는 최상의 방법은 샘플 데이터의 평균 비율입니다.

샘플 데이터가로드되어 테스트 인스턴스에 삽입되고 디스크 사용량이 측정됩니다.

데이터를 Snappy로 압축하면 원시 바이트를 저장하는 것보다 디스크 사용량이 많아 질 수 있습니다.

당신의 데이터의 압축에 관해서이 오직 하나의 규칙입니다 : 법안

+0

스티븐, 나는 참으로, 디스크 사용량이 만들어 특정 열이있는, 압축을 측정하는 테스트를 봤는데 RLE 압축 때문에 낮아집니다. 너 내가 생각한 것을 확인했다. Cassandra가 플러시 할 때만 압축이 발생한다고 생각하기 때문에 통계 옵션을 사용하는 것이 유일한 옵션일까요? 다시 한 번 감사드립니다. – Amanda