2014-05-20 5 views
0

관련 바이너리 결과 변수가있는 데이터가 있습니다. 당연히 매개 변수 추정치와 확률 비율을보기 위해 로지스틱 회귀 분석을 실시했습니다. 그러나이 데이터를 이진 결과에서 데이터 계산으로 변경하는 것이 궁금했습니다. 그런 다음 카운트 데이터에 대한 포아송 회귀 (및 음 이항 회귀)를 실행했습니다.포아송 회귀와 물류 회귀 비교

나는이 서로 다른 모델을 비교하는 방법을 모릅니다. 모든 비교는 중첩 된 모델에만 관련되는 것처럼 보입니다.

이 상황에서 사용할 최적의 모델을 어떻게 결정 하시겠습니까?

+1

이 질문은 통계에 관한 것이므로 주제와 관련이없는 것으로 보입니다. – timrau

답변

1

기본적으로 두 모델은 대략 같습니다. 정말로 중요한 것은 당신의 목표입니다 - 당신이 정말로 예측하고 싶은 것입니다. 얼마나 많은 경우가 좋은 것인지 나쁜지 (1 또는 0)를 결정하려면 로지스틱 회귀 분석을 선택하십시오. 케이스가 얼마나 많은지 (카운트)에 정말로 흥미가 있다면 포아송을하십시오.

다른 말로하면이 두 모델의 유일한 차이점은 물류 변환과 로지스틱 회귀가 오 분류 오류 (-2 로그 가능성)를 최소화하려고한다는 사실입니다. 간단히 말하면 선형 회귀 분석을 실행하더라도 (OLS)를 사용하면 결과가 0과 1 사이가 아닐 수 있다는 점을 제외하고는 물류 모델과 큰 차이가 없어야합니다 (예 : RoC 곡선 아래의 면적은 물류 모델과 비슷합니다).

요약하면 두 모델 중 더 나은 모델에 대해 걱정할 필요가 없습니다. 즉, 기능 정보를 캡처하는 방식이 대략 동일해야합니다. 최적화, 집계 또는 확률을 결정하는 것이 더 합리적이라고 생각하십시오. 비선형 모델 (예 : 임의의 숲 또는 신경망 등)을 고려하는 경우 대답이 다를 수 있지만, 고려중인 두 가지는 거의 (거의) 선형이므로 걱정할 필요가 없습니다.

1

한 가지 고려해야 할 것은 샘플 디자인입니다. 케이스 - 컨트롤 스터디를 사용한다면, 로지스틱 회귀는 푸 아송 회귀와 같은 비율 로그가 아닌 로짓 링크 기능으로 인해 갈 수있는 방법입니다. 이것은 case-control 연구와 같은 경우에 오버 샘플링이있는 경우 odds ratio이 편향되지 않기 때문입니다.