2014-03-12 4 views
4

저는 어떻게 든 비교하고 "비슷한"방법을 나타내는 값을 얻기 위해 필요한 두 개의 N 차원 배열을 가지고 있습니다. 통계적 용어로 이것은 두 표본이 동일한 부모 분포에서 파생된다는 가설이있는 두 표본의 적합도 문제입니다.2 개의 N 차원 배열을 비교하십시오.

은 단순화하기 위해, 아래의 것과 같은 2 차원 배열을 상상 :

enter image description here

이있는 나는 그들이 얼마나 "유사한"정량화 번호를 제시해야합니다.

python 패키지에는 이러한 통계 테스트가 있습니까? 나는 분명히 내가 필요 않는다는 scipy 패키지를 발견했습니다

추가 등


, scikit-learn, scipy, numpy 사용하여 열려있어하지만 그것은 단지 1 차원 배열에서 작동 : scipy.stats.ks_2samp. R 통계 소프트웨어는 kde.test 기능을 포함하는 ks package입니다. 이 함수는 필요한 것을 수행하지만 python 구현을 원합니다.

+1

얼마나 엄격해야합니까? 간단한 메트릭의 경우 평균과 공분산 행렬을 항상 비교할 수 있습니다. –

+3

점 구름을 비교하는 방법은 다양합니다. 예를 들어 평균 거리 (''np.mean()'')를 계산하면 중심이 떨어져있는 거리를 알 수 있습니다. 공분산 행렬 ("np.cov()")의 행렬식을 계산하면 근사화 된 타원체의 부피가 기술됩니다. – Dietrich

+0

여러분은 여러분의 행렬에 '적합성'을주기 위해 scipy에서'kstest' 모듈을 사용할 수 있습니다. – Signus

답변

1

트릭을 수행하는 R 패키지를 알고 있으므로 응용 프로그램이 Python에서 R을 호출 할 수 있습니까? rpy2 패키지를 사용하면 R (https://pypi.python.org/pypi/rpy2/)과 통신 할 수 있으며, IPython을 사용하는 경우 rmagic (http://ipython.org/ipython-doc/dev/config/extensions/rmagic.html)을 사용하여 대화식으로 할 수 있습니다. pandas에는 실험적인 rpy2 지원도 있습니다. http://pandas.pydata.org/pandas-docs/dev/r_interface.html

관련 문제