2009-05-24 5 views
0

크기/부피/물리 (메트릭, 기가 바이트/테라 바이트)가 요소 수와 레이블 수와 관련이없는 무한 저장으로 가정하면 통계적 패턴은 이미 30 개의 하위 집합으로 나타납니다. 그러나 1000 개 미만의 하위 집합은 테스트하기에는 너무 적으며 적어도 10000 개의 고유 한 하위 집합/"요소", "항목"/ 개체는 "큰 데이터 집합"입니다. 아니면 더 커? 감사합니다."큰"데이터 세트는 몇 개입니까?

+1

데이터 세트가 포함되어있는 데이터의 종류와 그 데이터를 사용하여 수행하려는 통계 분석을 지정해야합니다. – akappa

+0

@akappa는 문맥이 없으면 말할 수 없다고 말합니다. –

+2

무한 스토리지의 경우 데이터 세트가 "large"가 아닙니다 :-) –

답변

3

나는 당신의 질문을 이해할 수 있을지 모르겠다. 그러나 당신은 어떤 정도의 정확성을 보장하기 위해 샘플링해야 할 데이터 요소의 수를 묻는 것처럼 들린다. (30은 마술이다. 자주 연주하기 위해 들어오는 중심 극한 정리의 수).

이 경우 필요한 표본 크기는 신뢰도 및 신뢰도 간격에 따라 다릅니다. 95 % 신뢰 수준과 5 % 신뢰 구간을 원할 경우 (즉, 샘플에서 결정한 비율이 전체 데이터 세트의 비율의 5 % 이내라는 것을 95 % 확신하고 싶다면) 샘플 크기는 385 개 이하입니다. 신뢰 수준이 높을수록 생성하려는 신뢰 구간이 작을수록 필요한 표본 크기가 커집니다.

숫자를 실행하려는 경우 mathematics of determining sample size 및 편리한 sample size calculator에 대한 유용한 토론입니다.

관련 문제