회귀 모델을 훈련하고 싶기 때문에 무작위로 포리스트 모델을 사용합니다. 그러나 필자는 필자의 데이터 세트에서 많은 기능을 가지고 있기 때문에 기능을 선택해야 할 필요가 있으며 모든 기능을 사용하면 과청 될 것입니다. 내 모델의 성능을 평가하기 위해 5 배 교차 유효성 검사를 수행하고 다음 두 가지 접근 방식에 대한 나의 질문이 옳았으며 그 이유는 무엇입니까?기능 선택 및 교차 유효성 검사
1- 데이터를 두 개로 나누고 전반부에서 기능을 선택하고 나머지 절반에 대해 5 배 교차 유효성 검사 (CV)를 수행하려면이 선택된 기능을 사용해야합니다 (이 경우 5 CV가 정확하게 사용됩니다 동일한 선택 기능).
1-에 2 분할이 훈련 데이터 (전체 데이터의 4/5)을 테스트하기위한 훈련 4/5 및 1/5로 데이터를 분할 :
2 다음 절차를 수행 두 반쪽 : a-) 상반기에 모델을 훈련시키고 기능을 선택하기 위해 훈련 된 모델을 사용합니다. 012-b-) 훈련 데이터 세트의 두 번째 절반에 모델을 훈련시키기 위해 첫 번째 부분에서 선택한 피쳐를 사용하십시오 (이것은 최종 훈련 된 모델입니다). 3 - 나머지 1/5의 데이터 (훈련 단계에서는 사용되지 않음)에서 모델의 성능을 테스트합니다. 4- 이전 단계를 5 번 반복하고 매번 무작위로 (대체하지 않고) 데이터를 분할합니다 교육을 위해 4/5로, 테스트를 위해 1/5로
내 관심사는 두 번째 절차에서 우리는 5 가지 모델을 갖게되며 최종 모델의 기능은이 5 가지 모델의 주요 기능의 조합이 될 것입니다. 그래서 5CV의 성능이 최종 모델의 최종 성능을 반영 할 수 있는지 확신 할 수 없습니다. 특히 최종 모델은 각 모델의 5Fold와 다른 기능을 가지고 있기 때문에 (각 모델의 선택한 기능을 5 CV)