저는 어떻게 든 비교하고 "비슷한"방법을 나타내는 값을 얻기 위해 필요한 두 개의 N 차원 배열을 가지고 있습니다. 통계적 용어로 이것은 두 표본이 동일한 부모 분포에서 파생된다는 가설이있는 두 표본의 적합도 문제입니다.2 개의 N 차원 배열을 비교하십시오.
은 단순화하기 위해, 아래의 것과 같은 2 차원 배열을 상상 :
이있는 나는 그들이 얼마나 "유사한"정량화 번호를 제시해야합니다.
python
패키지에는 이러한 통계 테스트가 있습니까? 나는 분명히 내가 필요 않는다는 scipy
패키지를 발견했습니다
추가 등
, scikit-learn
, scipy
, numpy
사용하여 열려있어하지만 그것은 단지 1 차원 배열에서 작동 : scipy.stats.ks_2samp. R
통계 소프트웨어는 kde.test
기능을 포함하는 ks package입니다. 이 함수는 필요한 것을 수행하지만 python
구현을 원합니다.
얼마나 엄격해야합니까? 간단한 메트릭의 경우 평균과 공분산 행렬을 항상 비교할 수 있습니다. –
점 구름을 비교하는 방법은 다양합니다. 예를 들어 평균 거리 (''np.mean()'')를 계산하면 중심이 떨어져있는 거리를 알 수 있습니다. 공분산 행렬 ("np.cov()")의 행렬식을 계산하면 근사화 된 타원체의 부피가 기술됩니다. – Dietrich
여러분은 여러분의 행렬에 '적합성'을주기 위해 scipy에서'kstest' 모듈을 사용할 수 있습니다. – Signus