2017-10-12 4 views
0

나는 h2o로 GBM을 초과 맞추려고하고있다. (나는 이상하게 여겨진다.하지만 나는 이것을 만들 필요가있다.) 그래서 난 내 나무의 MAX_DEPTH 및 수축, 장애인 정지 기준 증가 :h2o GBM 조기 정지

overfit <- h2o.gbm(y=response 
        , training_frame = tapp.hex 
        , ntrees = 100 
        , max_depth = 30 
        , learn_rate = 0.1 
        , distribution = "gaussian" 
        , stopping_rounds = 0 
        , distribution = "gaussian" 
       ) 

overfitting가 잘 작동을하지만 훈련 오류가 64 트리 후 개선되지 않는 것으로 나타났습니다. 왜 그런지 알아? 부스팅의 개념을 충분히 이해한다면, 나무 수가 증가함에 따라 훈련 오류가 0으로 수렴되어야합니다.

내 데이터에 대한 정보 : 약 1 백만 회의 관측 가변 변수 응답 변수는 정량입니다.

좋은 하루 되세요!

답변

0

min_split_improvement 매개 변수를 낮추려고 했습니까? 1e-5의 기본값은 이미 미시적이지만 백만 라인이있을 때 적합합니다. 64 번째 이후의 모든 트리 (예를 들어)는 사소 할 것 같습니까?

0

0.1 학습 속도가 효과적이지 않으면 학습 속도를 0.01 또는 0.001과 같이 줄이는 것이 좋습니다. 트리 64 이후에 트레이닝 오류가 줄어들지 만, 특히 느린 학습 속도를 시도 할 경우, 적어도 1000-5000 개 이상의 트리를 추가하는 것이 좋습니다.

+0

답장을 보내 주셔서 감사합니다. 예. 나는 그것을 시도했다. 그러나 그것은 더 많은 나무를 가지고있는 똑같은 것이다. 교육 오류는 결국 감소를 멈추고 나는 그 이유를 모른다. –