2017-05-08 1 views
0

내가 예제 및 실행하는 내 자신의 코드를 얻기 위해 관리 할 수 ​​있지만, 나는 특히 Env.reset에()OpenAI 체육관 : 언제 재설정해야합니까?

이 때 리셋 예상/필요, OpenAI 체육관 API 뒤에 진정한 의미/기대에 대한 자세한 궁금합니다? 각 에피소드의 끝에서? 아니면 환경을 만든 후에야?

나는 오히려 각 에피소드 전에 말이 생각하지만, 나는 그것을 명시 적으로 읽을 수 없었다!

답변

1

당신은 일반적으로 전체 에피소드 후 재설정을 사용합니다. 당신이 민주당에 터미널 상태에 도달 한 후, 또는 당신은 당신이 (당신에 의해 설정) 시간 간격의 최대 크기에 도달 한 후에 그래서이 될 수 있습니다. 나는 또한 전형적으로 아주 훈련의 처음에 그것을 다시 놓았다.

그래서 당신은 당신의 시작 상태 'A'에서이고, 당신은 당신은 당신의 시간을 'A'에서가는 단계들 실행됩니다 상태 'Z'를 도달 할 경우 -> 'B'-> 'C'를 ... 당신은 터미널 상태 'Z'를 도달 할 때 다음, 당신은 'A'로 다시 당신을 데려 갈 것이다 리셋을 사용하여 새 에피소드를 시작합니다.

for episode in range(iterations): 
    state = env.reset() // first state 
    for time_step in range(1000): //max amount of iterations 
     action = take_action(state) 
     observation, reward, done, _ = env.step(action) 
     if done: 
      break // takes you to the next episode where the environment is reset 
관련 문제