1

나는 표준 문제 또는 균일 한 노이즈가있는 대규모 데이터 세트에 대한 선형 회귀 분석에 초점을 맞추고 있습니다. 모델링 프레임 워크로 TensorFlow에서 Estimator API를 선택했습니다.TensorFlow로 선형 회귀에 필요한 일괄 처리 크기 또는 에포크를 조정합니까?

사실, 하이퍼 파라미터 튜닝은 훈련 단계의 수가 충분히 커질 수있는 경우 이러한 기계 학습 문제에 중요하지 않습니다. 하이퍼 매개 변수는 교육 데이터 스트림의 일괄 처리 크기 또는 에포크 수를 의미합니다.

공식적인 증거가있는 논문/문서가 있습니까?

답변

0

나는이 질문에 특별히 초점을 맞춘 종이가 있다고 생각하지 않습니다. 다소 근본적인 사실이기 때문입니다. this book의 소개 장에서는 일반적으로 기계 학습 및 손실 기능 최적화에 대한 확률 론적 해석에 대해 설명합니다.

즉, 미니 배치 최적화 wrt (x1,..., xn)은 그래디언트가 선형 연산자이기 때문에 연속 최적화 단계 wrt x1, ..., xn 입력과 동일합니다. 즉, 미니 배치 업데이트는 개별 업데이트의 합계와 같습니다. 여기서 중요한 점은 NN이 일괄 표준이나 추론 모델에 명시적인 변형을 추가하는 다른 계층을 적용하지 않는다고 가정합니다 (이 경우 수학은 좀 더 털이 있습니다).

따라서 배치 크기는 벡터화 및 병렬 컴퓨팅을 통해 최적화 속도를 높이는 순수한 계산 아이디어로 볼 수 있습니다. 임의로 긴 교육을 제공 할 수 있고 데이터가 적절히 섞여 있다고 가정하면 배치 크기는 임의의 값으로 설정할 수 있습니다. 그러나 모든 하이퍼 매개 변수에 대해 자동으로 적용되는 것은 아닙니다. 예를 들어 매우 높은 학습률로 인해 최적화가 쉽게 분산 될 수 있으므로 일반적으로 하이퍼 패러미터 튜닝이 중요하지 않다고 오해하지 마십시오.

+0

훌륭한 답변을 보내 주셔서 감사합니다. tf.estimator.LinearRegressor()에는 학습 속도가 하이퍼 매개 변수로 지정되어 있지 않은 경우에만 문제가 발생합니다. 하이퍼 매개 변수는 입력 기능 측면에서 배치 크기 및 에포크 수입니다. 전통적인 tf.train.GradientDescentOptimizer를 사용하지 않았습니다. 학습 속도는 입력 할 수있는 명시적인 매개 변수였습니다. – Tirtha

+1

@Tirtha 많은 세부 사항을 숨기므로 높은 수준의 TF API는 까다 롭습니다. 실제로 다음과 같이 옵티 마이저를 만들고 전달하여 학습 속도를 설정할 수 있습니다 :'ftrl.FtrlOptimizer (learning_rate = learning_rate)' – Maxim

관련 문제