2014-10-23 4 views
0

선형 회귀를 수행하기 위해 Python의 통계 모델 패키지를 사용하고 있습니다. R^2, p 등의 출력 중에는 "로그 가능도"도 있습니다. 문서에서 이것은 "적합 모델의 우도 함수의 값"으로 설명됩니다. 소스 코드를 살펴보고 실제로 무엇을하는지 이해하지 못합니다.Statsmodels OLS 회귀 분석 : 로그 가능성, 사용 및 해석

가능성 함수에 대한 자세한 내용을 보려면이 '로그 가능성'값의 의미 또는 용도에 관한 매우 모호한 아이디어가 필요합니다. 그래서 몇 가지 질문 :

  • 매개 변수 (이 경우 beta)의 값과 동일, 선형 회귀의 경우, 우도 함수의 값 아닌가? 그것은 방정식 12로 이어지는 다음 유도에 따라 그런 식으로 보입니다. http://www.le.ac.uk/users/dsgp1/COURSES/MATHSTAT/13mlreg.pdf

  • 우도 함수의 값을 아는 용도는 무엇입니까? 동일한 반응과 다른 예측자를 가진 다른 회귀 모델과 비교할 수 있습니까? 실용적인 통계 학자와 과학자들은 통계 모델에 의한 로그 우도 값을 어떻게 사용합니까?

답변

1

우도 (및 확장 로그 우도)는 통계에서 가장 중요한 개념 중 하나입니다. 모든 용도에 사용됩니다.

첫 번째 점은 가능성이 매개 변수의 값과 같지 않습니다. 우도 (Likelihood)는 일련의 매개 변수 추정을 통해 전체 모델의 가능성입니다. 그것은 매개 변수 추정값을 취하여 각각에 대한 확률 밀도를 계산 한 다음 모든 관측 값에 대한 확률 밀도를 곱하여 계산됩니다 (이것은 P (A와 B) = P (A) P B) A와 B가 독립적 인 경우). 실제적으로 이것이 선형 회귀에 대해 의미하는 것과 그 유도가 보여주는 것은 매개 변수 추정 (베타, sd)의 집합을 일반 pdf에 연결 한 다음 해당 집합에서 각 관측 y의 밀도를 계산한다는 것입니다 매개 변수 추정치. 그런 다음, 모두 함께 번식하십시오. 일반적으로 우리는 log-likelihood를 사용하기로 결정합니다. 왜냐하면 곱하기 대신에 계산 상 더 빠르기 때문에 (log (a * b) = log (a) + log (b)) 곱할 수 있기 때문에 계산하기가 쉽기 때문입니다. 또한 최적화 (최적화)가 극대화보다 때때로 더 잘 작동하기 때문에 (양수를 최대화하는 대신에) 음의 대수 우도 (log-likelihood)를 최소화하는 경향이 있습니다.

두 번째 요점에 대답하려면 거의 모든 경우에 로그 가능성이 사용됩니다. 거대한 모델 세트에 대한 매개 변수 추정치 (최대 우도 추정치)를 찾는 데 사용하는 기본 양입니다. 단순 선형 회귀의 경우 이러한 추정치는 최소 제곱의 경우와 동일하지만보다 복잡한 모델의 경우 최소 제곱이 효과가 없을 수 있습니다. 또한 AIC를 계산하는 데 사용됩니다. AIC는 동일한 응답 및 다른 예측을 사용하여 모델을 비교하는 데 사용할 수 있습니다 (단, 더 많은 매개 변수가 더 적합하므로 관계없이 매개 변수 번호에 불이익을줍니다).

+0

나는 MLE를 우도 함수 자체와 혼동하고 있었다. 감사. – cyniphile