Matlab : 데이터가 기하 급수적으로 분포하는지 테스트하기위한 Chi-square fit (chi2gof)

나는 이것이 간단한 질문이라고 생각하지만, 나는 그것을 분류 할 수 없다.Matlab : 데이터가 기하 급수적으로 분포하는지 테스트하기위한 Chi-square fit (chi2gof)

V = [31 52 38 29 29 34 29 24 25 25 32 28 24 28 29 ...];

나는 V가 기하 급수적으로 분산되어있는 경우 테스트하기 위해 matlab에있는 chi2gof 테스트를 수행 할 : 나는 벡터가의 첫 번째 요소는 다음과 같다. 내가 그랬어 :

[h,p] = chi2gof(V,'cdf',@expcdf);

하지만 난 경고 메시지가 말하는 얻을 :

Warning: After pooling, some bins still have low expected counts. 
The chi-square approximation may not be accurate

내가 잘못 chi2gof 전화를 정의를?

출처

2014-12-02 Oliver Amundsen

그냥 추측 : 아마도 데이터 벡터 죄송 –

은 그 샘플의 얘기를 깜빡 했네요 너무 작습니다. 원본은 36 가지 요소입니다. 괜찮을거야 ... 너! –

36 개의 값으로 매우 작은 샘플 세트가 있습니다. chi-squared test에 대한 위키 백과의 문서의 두 번째 문장 (강조 추가)에서 :

이 큰 샘플에서 독립 데이터에 적합합니다.

대개이 경우 대문자는 보통 약 100 자 정도입니다. assumptions of this test here에 대해 자세히 알아보십시오.

대안 당신은 Kolmogorov-Smirnov test을 기반으로 matlab에에 kstest을 시도 할 수 있습니다

다음 Lilliefors test에 기반을 위해 특별히 옵션을 가지고 있습니다

[h,p] = kstest(V,'cdf',[V(:) expcdf(V(:),expfit(V))])

또는 lillietest을 시도, 지수 분포 데이터 :

샘플 크기를 늘릴 수있는 경우 chi2gof을 사용하면 문제가 발생합니다. 'cdf' 옵션의 경우 help에서 :

완전 지정 누적 분포 함수. 이 은 ProbabilityDistribution 개체, 함수 핸들 또는 함수가 될 수 있습니다. 이름. 이 함수는 유일한 인수로 X 값을 가져야합니다. 또는 의 첫 번째 요소가 함수 이름이거나 핸들이고 그 이후 요소가 매개 변수 값인 셀 배열을 셀당 하나씩 제공 할 수 있습니다. 이 함수는 X 값을 첫 번째 인수로 사용하고 다른 매개 변수는 이후 인수로 사용해야합니다.

당신은 너무 expcdf이 mu = 1의 매개 변수를 의미하는 기본값을 사용하고, 추가 매개 변수를 제공하지 있습니다. 데이터 값이 매우 커서이 값이 exponential distribution에 모두 일치하지 않습니다. 매개 변수도 추정해야합니다.,

[h,p] = chi2gof(V,'cdf',@(x)expcdf(x,expfit(x)),'nparams',1)

그러나 만 36 샘플이 같은 분배를위한 아주 좋은 평가를 얻을 수 있으며, 아직 예상되지 않을 수 있습니다 : 당신은 maximum likelihood expectation에 맞 ㄴ됩니다 expfit 기능, 당신은 이런 식으로 뭔가를 시도 할 수 있습니다 심지어 예를 들어 알려진 분포에서 샘플링 된 데이터에 대한 결과 :

V = exprnd(10,1,36); 
[h,p] = chi2gof(V,'cdf',@(x)expcdf(x,expfit(x)),'nparams',1)

출처

2014-12-02 23:10:15 horchler

환상적인 설명. 정말 고마워. Chi2에 대한 큰 샘플이 약 100 개라는 것을 뒷받침하는 추가 자료를 제안 해 주시겠습니까? –

또한 lilliefors가 귀무 가설을 수락하고, KS가 그것을 거절한다면? 명령에 실수를하지 않았다면 이런 일이 저에게 일어나고있는 것 같습니다. –

이것은 카이 제곱 테스트의 잘 알려진 속성이며 좋은 텍스트에서 찾을 수 있습니다. 100은 엄지 손가락입니다. 요점은 테스트가 제대로 작동하려면 테스트가 많이 필요하며 테스트에서는 각 빈/셀에 몇 개가 필요하다는 것입니다. 추가 리소스로 내 대답을 업데이트했습니다. StackOverflow는 프로그래밍을 목표로합니다. 수학/통계 그 자체가 아닙니다. 어느 상황에서 어떤 테스트를 사용해야하는지에 대한 질문이 있으면 [Cross Validated] (http://stats.stackexchange.com) 또는 [Math.StackExchange] (http : // math. stackexchange.com). – horchler

Matlab : 데이터가 기하 급수적으로 분포하는지 테스트하기위한 Chi-square fit (chi2gof)

답변

관련 문제