2012-07-16 2 views
2

귀하의 의견을 부탁드립니다. 나는 유전 프로그래밍의 도움으로 회귀 모델을 만들고있다.훈련 오류보다 낮은 테스트 오류

테스트 데이터의 내 RMSE가 교육 데이터의 RMSE보다 1 : 5 비율의 데이터가 (많이) 낮 으면 걱정해야합니까?

테스트 데이터는 24 개의 데이터 포인트 집합에서 대체하지 않고 무작위로 추출됩니다. 모델은 유전 프로그래밍 기법을 사용하여 구축되었으므로 GP 트리의 노드 수로 정규화 된 교육 RMSE를 최소화하면서 기능의 수, 모델링 프레임 워크 등이 다양합니다.

모델이 적합하지 않습니까? 또는 RMSE 대신 MSE를 최소화해야합니까? (MSE가 양수이고 MSE의 최소값이 최소값을 찾는데 충분하다고 가정 할 때 RMSE의 최소값과 일치 할 것이라고 생각 했습니까?)

TKS

답변

1

그래서 모델 24 데이터 포인트의 20에 대한 교육과 4 개 남은 데이터 포인트에서 테스트?

내게있어 (더 많은) 더 많은 데이터가 필요한 것 같아서 더 큰 기차와 테스트 세트를 가질 수 있습니다. 귀하의 모델이 그러한 소수의 데이터로부터 학습 할 수 없었던 것처럼 테스트 세트의 낮은 성능에 놀라지 않습니다. 일반적으로 기계 학습을 위해서는 충분한 데이터가 없을 수 있습니다. 더 큰 데이터 집합을 수집 할 수 있습니까?

+0

큰 데이터 집합을 수집 할 수 없다고 의심하는 것이 맞습니다. 테스트 세트의 성능은 실제로 매우 우수합니다. <, 훈련 세트보다 훨씬 낫습니다. 나는 6 배 교차 검증을 시도했다. 평균 테스트 오류는 여전히 매우 낮습니다 (RMSE). MAPE의 경우 테스트 성능도 매우 우수합니다 (2 % 미만). 훈련 오류가 더 크고 3 배 이상 커질 수 있습니다. RMSE와 MAPE에서! – oalah

+0

아아, 나는 그것을 잘못 읽었으며, 당신의 테스트가 나쁜 것으로 생각했습니다. 이것은 참으로 흥미로운 상황입니다. 교육 데이터에 대한 귀하의 실적은 전체 교육 기간의 평균입니까, 아니면 모델이 학습을 마친 후에 측정 된 성과입니까? – Sicco

+0

안녕하세요, Sicco, 교육 성능은 일단 모델 학습을 마친 것입니다. – oalah