2015-01-17 2 views
1

파이썬을 사용하여 데이터에 가장 적합한 선의 방정식을 찾으려고합니다. 그러나 x 및 y 데이터 요소에 오류가 있습니다. 내 오류는 대칭 적이 지 않습니다. 나는 kmpfit 패키지를 사용하려고했지만이 패키지 내 오류가 가우시안 분포를 따르는 것으로 가정x 및 y에 대한 오류가있는 선형 맞춤

x x_upper_err x_lower_err y  y_upper_err y_lower_err 
-0.120 0.280   0.280  0.074484 0.000140 -0.000077 
0.210 0.170   0.270  0.091828 0.000414 -0.001600 
-0.280 0.300   0.300  0.041035 0.002209 -0.000771 

: 여기 내 데이터 포인트의 모양 것입니다. http://www.astro.rug.nl/software/kapteyn/kmpfittutorial.html#fitting-data-when-both-variables-have-uncertainties

다른 방법이 있습니까? 나는 ODR (직교 거리 회귀) 방법을 보았지만이 방법은 오류가 정상적으로 분포되어 있음을 고려합니다.

도움을 주시면 감사하겠습니다. 감사합니다

업데이트 데이터에 오류가 정규 분포를하는 경우, 나는 Q-Q plot했다 테스트하기 위해

. 여기 내 결과는 다음과 같습니다

Q-Q plot of independent variable Q-Q plot of independent variable

Q-Q plot of dependent variable

Q-Q plot of dependent variable

나는 나의 independent 변수 normally distributed 있다고 가정 할 수 있지만, 내 dependent 오류이을지지 않습니다.

질문 1 :dependent errors이 정상적으로 배포되지 않는다는 것을 알고 있다면 다음 단계는 무엇입니까?

질문 2 : ODR을 사용하여 문제를 해결할 수 있습니까?

답변

1

잔류 물이 정상적으로 분배되지 않는다고 확신하게하는 이유는 무엇입니까? 이 가정을 확인하는 한 가지 방법은 Q-Q plot을 사용하는 것입니다. 실용적인 관점에서, 대부분의 사람들은 잔차가 정상적으로 분포되어 있는지를보기 위해 데이터의 산점도를 조사 할 것입니다. 종종이 가정에 위배되는 것은 중요하지 않지만, 당신이하려는 일에 달려 있습니다.

직각 거리 회귀를 사용하면 일반적인 최소 제곱 (아마 당신이 사용하고있는 것임)과는 반대로 문제를 해결하기 위해 아무 것도하지 않습니다. stats.stackexchange.com에서 더 좋은 답변을 얻을 수 있으며, 특히 this question이 도움이 될 수 있습니다.

+0

업데이트를 확인하십시오. 도와 줘서 고마워. – aloha

+0

1) 매우 극단적 인 2 가지 이상치가 있기 때문에 잔류 Q-Q 도표를 만들기가 어렵습니다. 회귀하기 전에 특이 사항에 대한 데이터를 필터링해야합니다. 2) 아니요. ODR이 어떻게 도움이되는지 아직 알 수 없습니다. – Jeff

+0

나는 사후 분포를 계산하기 위해 Bayesian Statistics를 사용할 것으로 생각한다. – aloha

관련 문제