훈련 값을 제공하지 않고 신경망을 훈련하는 방법을 궁금합니다. 나의 전제는 신경망이 센서에서 긍정적/부정적 피드백을받을 수있는 로봇에 사용될 것이라는 전제입니다. IE는 사물에 부딪히지 않고 자유롭게 돌아 다니도록 훈련시키기 위해 충돌 센서 나 근접 센서가 작동하지 않을 때 긍정적 인 피드백이 발생합니다. 충돌/근접 센서가 트리거되면 음의 피드백이 발생합니다. 이 방법을 사용하여 신경망을 어떻게 훈련시킬 수 있습니까?훈련 값이없는 신경망
내가
http://en.wikipedia.org/wiki/Temporal_difference_learning 어쩌면. 나는이 알고리즘을 체스에 사용 해왔다. – Damir
고맙습니다. 저는이 논문을 읽는 중입니다 : http://remi.coulom.free.fr/Thesis/ 그리고 방금 언급 한 내용이이 기술에서 활용되고 있습니다. – BumbleShrimp
@Damir 왜 대답하지 않니? – BumbleShrimp