2

훈련 값을 제공하지 않고 신경망을 훈련하는 방법을 궁금합니다. 나의 전제는 신경망이 센서에서 긍정적/부정적 피드백을받을 수있는 로봇에 사용될 것이라는 전제입니다. IE는 사물에 부딪히지 않고 자유롭게 돌아 다니도록 훈련시키기 위해 충돌 센서 나 근접 센서가 작동하지 않을 때 긍정적 인 피드백이 발생합니다. 충돌/근접 센서가 트리거되면 음의 피드백이 발생합니다. 이 방법을 사용하여 신경망을 어떻게 훈련시킬 수 있습니까?훈련 값이없는 신경망

내가

+0

http://en.wikipedia.org/wiki/Temporal_difference_learning 어쩌면. 나는이 알고리즘을 체스에 사용 해왔다. – Damir

+0

고맙습니다. 저는이 논문을 읽는 중입니다 : http://remi.coulom.free.fr/Thesis/ 그리고 방금 언급 한 내용이이 기술에서 활용되고 있습니다. – BumbleShrimp

+0

@Damir 왜 대답하지 않니? – BumbleShrimp

답변

5

설명하는 것을 강화 학습이라고합니다. 그것은 신경망에 적용될 수 있지만 일반적으로 신경망을 필요로하지는 않습니다. 주제에 관해 읽을 정규 교과서는 Richard Sutton과 Andrew Barto의 Reinforcement Learning: An Introduction입니다. 신경망과 강화 학습 사이의 연결은 James McClelland의 PDP Handbook에서 좀 더 자세하게 다루어집니다.

1

C++에서 이것을 쓰고 있어요 당신은 SLAM 살펴 보셨나요? 이것은 로봇이 한 지역을 탐색하고 동시에 그 지역의지도를 작성하고 유지하는 데 사용할 수있는 기술입니다.

+0

실제로이 PDF에서 Rossum Project (http://rossum.sourceforge.net/)의 http://rossum.sourceforge.net/papers/Localization/PosPosterv4.pdf에서 발견되었지만 링크, 내가 주제에 대해 더 많이 읽지 않았으므로 그것이 무엇인지 불렀다. – BumbleShrimp