나는 환경 다음 (3 × 4지도)와 MDP 문제가 생겼어요 : 가능한 행동에MDP : 일련의 동작에 대해 가능한 각 결과의 기회를 계산하는 방법은 무엇입니까?
/하/좌/우 오른쪽 방향으로 이동의 0.8 기회 , 인접한 각 방향에 대해 0.1 (예 : 의 경우) : 0.1 기회 가야 왼쪽이 일 때, 0.1 기회가 오른쪽).
[업, 위, 오른쪽 오른쪽, 오른쪽,]
: 지금은 (1,1)에서 시작하는 행동의 다음과 같은 순서로 실행 가능한 결과를 산출한다 무엇을해야하는지
또한이 작업 순서로 필드에 도달 할 가능성을 계산합니다 (각 가능한 결과에 대해). 이 작업을 어떻게 효율적으로 수행 할 수 있습니까? (최소 2^5, 최대 3^5 개의 가능한 결과를 거치지 마십시오)?
미리 감사드립니다.
이 숙제가 있습니까? – ziggystar