2017-11-06 1 views

답변

0

EpisodeParameterMemory은 자동 측정망에 사용되는 특수한 클래스입니다. 본질적으로 전체 에피소드 (따라서 이름)에 사용 된 정책 네트워크의 매개 변수를 저장합니다.

질문에 대한 답변 : limit 매개 변수는 메모리에 저장할 수있는 항목의 수만 지정합니다. 이 제한을 초과하면 이전 항목이 최신 항목으로 바뀝니다.

두 번째 매개 변수는이 특정 유형의 메모리에서 사용되지 않습니다 (CEM은 Keras-RL의 가장자리 케이스이며 대부분 기본베이스 라인으로 사용됩니다). 그러나 일반적으로 window_length 매개 변수는 얼마나 많은 관측치가 연결되어 "상태"를 형성 하는지를 제어합니다. 이것은 환경이 완전히 관찰 가능하지 않은 경우 (POMDP를 MDP로 변형시키는 것으로 생각하거나 적어도 대략적으로) 고려해야 할 필요가있을 수 있습니다. Atari의 DQN은 단일 프레임이 예를 들어 FF 네트워크에서 공의 속도를 추론하기에 충분하지 않기 때문에이를 사용합니다.

일반적으로 관련 용지를 읽는 것이 좋습니다 (다시 CEM은 다소 예외적입니다). 그러면 각 매개 변수가 의미하는 바가 상대적으로 명확해야합니다. 나는 Keras-RL에 필사적으로 문서화가 필요하다는 것에 동의하지만, 불행히도 지금 당장 그것에 작업 할 시간이 없다. 상황을 개선하기위한 기부금은 물론 항상 환영합니다;).

+0

관련 용지 란 무엇입니까? –

+0

하하하, 내가 문서를 요청할 수있는 시간을 찾았는지 봅시다 ;-) –

관련 문제