3
정책 반복 및 값 반복을 사용하여 할당에 대한 MDP 에이전트를 제안하고 성능을 상태의 유틸리티 값과 비교해야합니다.그리드 세계의 정책 반복에 대한 직감
MDP 에이전트는 전환 가능성 및 보상을 알고 있으므로 이동 작업을 어떻게 알 수 있습니까?
제 생각에 MDP 에이전트는 정책 반복을 수행하고 정책에 따라 종료 상태에 도달하는 동안 얻은 보상을 계산합니다. 이 정책은 값 반복 알고리즘에서 개발되었습니다.
정책 반복이 어떤 방식으로 작동하는지 직감을 줄 수 있습니까?
숙제이기 때문에 Markov 결정 문제에 대한 책이나 자습서를 준비하고 싶을 수도 있습니다. http://ais.informatik.uni-freiburg.de/teaching/ss03/ams/DecisionProblems.pdf – greeness
Russel과 Norvig의 저서 "Artificial Intelligence a modern approach", 17 장은 정책 반복 알고리즘 구현에 대한 시간을 초월한 답을 제공합니다. http://www.amazon.com/Artificial-Intelligence-Modern-Approach-3rd/dp/0136042597 –