3

정책 반복 및 값 반복을 사용하여 할당에 대한 MDP 에이전트를 제안하고 성능을 상태의 유틸리티 값과 비교해야합니다.그리드 세계의 정책 반복에 대한 직감

MDP 에이전트는 전환 가능성 및 보상을 알고 있으므로 이동 작업을 어떻게 알 수 있습니까?

제 생각에 MDP 에이전트는 정책 반복을 수행하고 정책에 따라 종료 상태에 도달하는 동안 얻은 보상을 계산합니다. 이 정책은 값 반복 알고리즘에서 개발되었습니다.

정책 반복이 어떤 방식으로 작동하는지 직감을 줄 수 있습니까?

+2

숙제이기 때문에 Markov 결정 문제에 대한 책이나 자습서를 준비하고 싶을 수도 있습니다. http://ais.informatik.uni-freiburg.de/teaching/ss03/ams/DecisionProblems.pdf – greeness

+0

Russel과 Norvig의 저서 "Artificial Intelligence a modern approach", 17 장은 정책 반복 알고리즘 구현에 대한 시간을 초월한 답을 제공합니다. http://www.amazon.com/Artificial-Intelligence-Modern-Approach-3rd/dp/0136042597 –

답변

0

정책 반복 및 값 반복 알고리즘이 무엇인지 이미 본 것으로 가정하면 에이전트는 각 상태에 대해 가장 높은 값을 갖는 작업을 선택하여 새 정책을 간단히 작성합니다.

조치 값은 해당 조치에 대한 모든 가능한 다음 상태에 대해 다음 상태 * (다음 상태 값 + 전환 보상에 대한)에 도달 할 확률을 합한 것입니다.

관련 문제