특히 RandomForestModel을 사용하여 spark-mllib로 분류하려고합니다.Spark-mllib retraining saved models
나는이 예제를 spark (RandomForestClassificationExample.scala)에서 살펴 봤지만 다소 확장 된 접근 방식이 필요하다.
나는 모델을 훈련시키고 미래의 사용을 위해 모델을 저장할 수 있어야하고, 그것을로드하고 더 훈련 할 수 있어야한다. 데이터 집합을 확장하고 다시 훈련하십시오.
덧붙여서, 새로운/확장 데이터 세트를 사용하여 모델을 학습 할 때 시작점으로 이전에 훈련 된 모델 매개 변수를 사용하는 것이 유일한 방법입니다. 그러나 초과하지 않는지 확인하기 위해 매개 변수에 대해 _clean 슬레이트 상태로 모델을 실행해야합니다. 따라서, 나는 eliasah와 동의하는 것은 _retraining_이 거의 의미가 없다는 것에 동의한다. – TDrabas
온라인 학습이 큰 분야라는 것을 감안할 때 추가 교육은 왜 의미가 없습니까? 가능할 때마다 기본 SGD를 최소한 지원할 수있는 것은 아닙니다. – user31415