2

나는 지금 Kaggle Machine Learning 경연 대회에 참가하고 있으며, 빠른 질문이 있습니다. 이 대회에서 알고리즘 유효성을 평가하기 위해 교차 검증을 사용하는 이유는 무엇입니까?왜 교차 유효성 검사를 사용합니까?

확실히이 대회에서 실제 실제 데이터와 비교하여 알고리즘을 테스트 한 공개 리더에서 점수를 얻으면 알고리즘 유효성을보다 정확하게 나타낼 수 있습니까?

+6

이 질문은 http://stats.stackexchange.com/에 속하기 때문에이 질문은 토픽이 아닌 것 같습니다. – sashkello

답변

2

교차 유효성 검사는 모델 구성에서 필수 단계입니다. 교차 유효성 검사로 인해 결과가 좋지 않은 경우 실제 데이터에서 시도해도 의미가 없습니다. 교육하고 검증하는 세트도 실시간 데이터입니다. 그렇지 않습니까? 결과는 비슷해야합니다. 모델의 유효성을 검증하지 않으면 성능에 대한 통찰력이 전혀 없습니다. 훈련 세트에 대해 100 %의 정확도를 제공하는 모델은 유효성 검증 세트에서 임의의 결과를 제공 할 수 있습니다.

크로스 반복 검증은 실제 데이터 테스트를 대신 할 수는 없으며 모델 구축 프로세스의 일부입니다.

+0

이 응답을 보내 주셔서 감사합니다. 따라서 나의 일반적인 계획은 내 모델에 대한 초기 CV 테스트를 수행하는 것입니다. 이것이 유망하게 수행되면, 라이브 테스트에 연결해야합니다. 이 테스트가 CV에서 잘 수행되고 실제 테스트에서 제대로 수행되지 않으면 과장 될 가능성이 높습니다. 모델이 어떻게 수행되는지에 대한 좋은 아이디어를 얻으려면 두 가지 측정 항목이 모두 필요합니다. 내가 제대로 이해 했는가? –

+0

@SimonKiely 이것은 대략적인 아이디어이지만 좀 더 많이 있습니다 (http://en.wikipedia.org/wiki/Cross-validation_(statistics)). 몇 가지 팁은 http://stats.stackexchange.com/questions/19048/what-is-the-difference-between-test-set-and-validation-set입니다. 일부 문헌을 찾아보기를 권합니다. 처음에는 쉽지만 ... – sashkello

+2

@SimonKiely 훈련 세트를 잘 수행하면 훈련 세트를 잘 분리하는 기능을 성공적으로 발견 할 수 있습니다. 우리는 교차 검증을 수행하여 우리의 교육 사례가 실제 데이터 집합의 대표적 사례임을 '검증'합니다. 이것이 핵심입니다. 훈련 세트에서 모델을 만들고이 모델을 사용하여 독립 세트 (테스트 세트)를 성공적으로 예측할 수 있다면이 모델이 실제 세트로 일반화 될 것이라는 확신을 가질 수 있습니다. 데이터. – willwest

관련 문제