2016-06-27 3 views
1

Cox 모델을 만들고 검증하기위한 두 가지 데이터 집합 (교육 및 유효성 검사)이 있습니다.외부 데이터를 사용하는 생존 모델 유효성 확인

훈련 데이터 세트를 사용하여 단계별 선택 방법을 사용하여 cox 모델을 장착했습니다.

모델의 중요한 변수는 유효성 확인 모델에 포함 된 유일한 변수입니다. 이것이 올바른 접근 방법입니까?

모델을 검증하면서 변수가 유효성 검증 모델에서 중요하지 않으며 cox 모델의 가정이 유효하지 않음을 확인했습니다 (유효성 검증 데이터에 대한 가정을 점검 함). 변수가 중요하지 않고 유효성 검사 데이터의 모델 가정에 대한 문제를 수정하는 데 앞서야한다는 사실을 무시해야합니까?

세 번째로, 훈련 및 유효성 확인 데이터에서 나는 세 가지 그룹으로 '치료'변수가 있습니다. 훈련에서 표준, 신약 및 혼합물이 그룹이며, 검증 데이터에서 그룹은 표준, 신약 및 X (훈련 데이터의 혼합과 다른 치료법)입니다. 이 변수를 두 모델에 모두 포함하는 것이 맞습니까? 아니면 일치하지 않는 그룹을 제거해야합니까? 학습 데이터와 X의 유효성 검사 데이터를 혼합하거나 그와 같이 작동해야합니까? 이것이 내 분석에 어떤 영향을 미치는지 확신 할 수 없습니다.

답장을 보내 주셔서 감사합니다.

답변

1

첫 번째 질문에 대답하려면 : 네, 이것이 올바른 접근 방법입니다. 교육 및 검증 세트에 대한 전체적인 아이디어는 교육 세트를 기반으로 모델에 대한 모든 결정 (여기에서는 추가 할 변수)을 작성하는 것입니다. 그런 다음 유효성 검사 집합을 사용하여 교육 집합의 결과가 얼마나 강력한 지 평가합니다. 이 방법으로 초과 맞춤, 이상 치, 데이터 오류 등을 확인할 수 있습니다.

그러나 단계별 회귀 방법은 권장하지 않습니다. 이 게시물의 대답은 https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r입니다.

두 번째 질문 : 아니오, 중요하지 않은 변수를 무시해서는 안됩니다. 이것이 유효성 검사가 설정된 이유입니다. 어쩌면 당신의 훈련 세트는 몇 가지 매우 영향력있는 관측치 (특이 치)를 가지고 있을까요? 또는 다른 것? 어쨌든, 당신은 여분의 연구를해야합니다.

어떤 가정을 의미합니까? 나는이 가정이 종종 위반되기 때문에 비례 위험 (PH) 가정이 성립하지 않는다는 것을 의미한다고 가정합니다. 귀하의 첫 번째 질문의 대답과 같은 추론 라인. 먼저 훈련 세트에 대한 가정을 확인하십시오. 또한 그 위치에 있지 않으면 모델에서 조정하십시오. 변수에 대해 위반 된 PH 가정이라면 시간 상호 작용을 추가하거나 층화 된 cox 모델을 작성하십시오. [예 : http://www.dbc.wroc.pl/Content/27006/Borucka_Extensions_of_Cox_model_For_non_proportional.pdf]

제 3의 질문에 대한 답이 확실하지 않지만, 여기에 있습니다. 귀하의 교육 모델에 포함되지 않은 경우 유효성 검사 모델에 X를 포함하는 것이 옳지 않습니다. . 변수 처리는 하나의 요인이므로 회귀 분석에서는 기본적으로 각 수준에 대해 더미 변수 (0/1)로 변경됩니다. 따라서 X를 포함하는 것은 유효성 검증 모델에서 완전히 새로운 변수를 도입하는 것과 동일합니다. 반 직관적입니다.

희망이 도움이됩니다.