2013-04-08 2 views
0

필자는 다 변수 인스턴스 세트를 가지고 있으며이 인스턴스에서 대표 세트를 추출해야합니다. 예를 들어 100,000 개의 다 변수 인스턴스가있는 경우 원본 배포를 대표하는 1000 개의 인스턴스를 추출하려고합니다. 라틴 하이퍼 큐브 샘플링과 무작위 샘플링을 사용하여 두 개의 대표적인 세트를 추출했으며이 두 대표 세트가 원래 세트와 얼마나 많은 상관 관계가 있는지 확인하려고합니다.다 변수 분포 비교

내가 더 자세히 설명한다면;

나는이 10 만 개 다변량 인스턴스 내가 'A'에서 두 대표 샘플을 도출

(의이 호출하자) (1000 개 인스턴스가 각 세트;의 다음 두 세트 B와 C 부르 자)

I을 'B'와 'C'가 원본 'A'의 분포를 유지하는지 확인하고 싶습니다.

미리 감사드립니다.

+0

이 질문에 http://stats.stackexchange.com/을 권합니다. – Bitwise

답변

1

더 많은 통계 질문이지만, 여기에 개요가 나와 있습니다. 일반적으로 카이 제곱 테스트를 사용하여 분포를 비교합니다. 기본 단계는 다음과 같습니다.

  1. 데이터 세트 각각. 각 bin에 적어도 5 개 이상의 샘플이 있도록 bin을 설정하십시오. (모든 데이터 세트에 대해 동일한 저장소를 사용하십시오).

  2. 큰 샘플 "A"를 사용하여 각 빈에서 예상되는 샘플 수 (f_e라고 함)를 결정하십시오. 샘플 A는 B 또는 C의 데이터 포인트의 100 배를 포함하고 있기 때문에 특정 빈에 대한 f_e는 1/100입니다. 샘플 중 하나 (B 말) 합 계산 테스트하려면

  3. : 모든 빈들에 걸쳐 S = 합 (f_o - f_e)^2/f_o는 빈에서 관찰 된 주파수 FE.

  4. 이 합계는 사용중인 총 빈 수보다 1이 작은 카이 제곱 변수입니다.

  5. 1-chi2cdf (S, dof). 이것은 당신이 얻은 것 (S)보다 크거나 큰 합계가 무작위적인 변화 (즉, 분포가 동일하더라도)로 인해 일어 났을 확률입니다. 따라서 0에 가까운 작은 결과는 분포가 다를 가능성이 높고 큰 결과 (1에 가까움)는 크게 다를 가능성이 없음을 의미합니다.

위의 모든 작업을 수행하는 라이브러리 함수가있을 수 있습니다. IDK, 오랫동안 통계 라이브러리를 사용하지 않았기 때문에.

+0

스튜어트에게 감사드립니다! 내가 가진 문제는 이러한 인스턴스가 다 변수이기 때문에이 샘플을 원래의 인구와 비교하는 데 같은 방법을 사용할 수 있다고 생각합니까? –

+0

예, 다 변수 케이스에서 작동합니다. 다 변수 케이스에서 데이터를 "보관"하는 것이 더 많은 노력이지만, 유일한 차이점입니다. – Stuart