2017-04-05 1 views
-1

나는 환경 다음 (3 × 4지도)와 MDP 문제가 생겼어요 : 가능한 행동에MDP : 일련의 동작에 대해 가능한 각 결과의 기회를 계산하는 방법은 무엇입니까?

enter image description here

/하/좌/우 오른쪽 방향으로 이동의 0.8 기회 , 인접한 각 방향에 대해 0.1 (예 : 의 경우) : 0.1 기회 가야 왼쪽이 일 때, 0.1 기회가 오른쪽).

[업, 위, 오른쪽 오른쪽, 오른쪽,]

: 지금은 (1,1)에서 시작하는 행동의 다음과 같은 순서로 실행 가능한 결과를 산출한다 무엇을해야하는지

또한이 작업 순서로 필드에 도달 할 가능성을 계산합니다 (각 가능한 결과에 대해). 이 작업을 어떻게 효율적으로 수행 할 수 있습니까? (최소 2^5, 최대 3^5 개의 가능한 결과를 거치지 마십시오)?

미리 감사드립니다.

+0

이 숙제가 있습니까? – ziggystar

답변

0

음. 나는 당신이 RL 문제를 해결하고 있는지 궁금해. 이제 Bellman 방정식 및 Q- 학습을 사용하여 RL 문제를 해결합니다.

이 강의에서도 도움이됩니다. http://cs229.stanford.edu/notes/cs229-notes12.pdf

학습을 마치면 전체 과정을 반복하면 [up, up, right, right, right]의 확률을 알 수 있습니다.

학습 후 두 번째 제약 조건은 정답에 거의 즉각적으로 도달하므로 의미가 없습니다.

이 예제는 AIMA에 있다고 생각합니다. 사실이 접근법에 대해 몇 가지 질문이 있습니다. 매우 이론적으로 접근하면 내 대답이 옳지 않은 것 같습니다.

while not done: 
    if np.random.rand(1) < e: 
     action = env.action_space.sample() 
    else: 
     action = rargmax(Q[state, :]) 

    new_state, reward, done, _ = env.step(action) 
    Q[state, action] = Q[state, action]+ lr * (reward + r*np.max(Q[new_state,:]) - Q[state, action]) 

그리고 이것은 단순히 체육관 코드입니다.

관련 문제