필자는 다 변수 인스턴스 세트를 가지고 있으며이 인스턴스에서 대표 세트를 추출해야합니다. 예를 들어 100,000 개의 다 변수 인스턴스가있는 경우 원본 배포를 대표하는 1000 개의 인스턴스를 추출하려고합니다. 라틴 하이퍼 큐브 샘플링과 무작위 샘플링을 사용하여 두 개의 대표적인 세트를 추출했으며이 두 대표 세트가 원래 세트와 얼마나 많은 상관 관계가 있는지 확인하려고합니다.다 변수 분포 비교
내가 더 자세히 설명한다면;
나는이 10 만 개 다변량 인스턴스 내가 'A'에서 두 대표 샘플을 도출
(의이 호출하자) (1000 개 인스턴스가 각 세트;의 다음 두 세트 B와 C 부르 자)
I을 'B'와 'C'가 원본 'A'의 분포를 유지하는지 확인하고 싶습니다.
미리 감사드립니다.
이 질문에 http://stats.stackexchange.com/을 권합니다. – Bitwise