reinforcement-learning

1열

2답변

케라 모델 (htber) 작성시 huber 손실을 사용하려고하지만 잘못된 결과를 얻고 있습니다. 잘못된 것으로 생각됩니다. 내 코드가 아래 있습니다. model = Sequential() model.add(Dense(output_dim=64, activation='relu', input_dim=state_dim)) model.add(Dense(outpu

0열

1답변

keras-rl의 EpisodeParameterMemory는 어떤 기능을합니까?

나는 keras-rl/examples/cem_cartpole.py 예제를 발견했으며 이해하고 싶습니다. 그러나 설명서를 찾지 못했습니다. memory = EpisodeParameterMemory(limit=1000, window_length=1) 할 선을 무엇? limit은 무엇이고 window_length은 무엇입니까? 어느 쪽/양쪽의 파라미터를 증가

0열

1답변

근 접 정책 최적화에 내역이 들어 있습니까?

예를 들어, 타임 스텝 t의 상태는 실제로 t와 t-1의 상태로 만들 수 있습니다. S_t = [s_t, s_t-1] 즉, 근면 정책 최적화가 상태 기록을 이미 통합 했는가, 또는 상태에 내포되어있을 수 있습니까 (또는 둘 다 아닐 수도 있습니다).

1열

1답변

시간에 특정 TensorFlow 체크 포인트 저장

삭제하지 않을 검사 점을 표시 할 수 있습니까? 약간의 문맥 : 내가 모델을 학습 보강을 만드는 오전 내가 훈련을 통해 내 최고의 모델을 저장하고 싶습니다. 그렇게하기 위해, 나는 최고의 점수를 유지하고 있으며, 그 순간에 체크 포인트를 저장하면서 업데이트 될 때마다. 불행히도 내 best_score 체크 포인트가 삭제됩니다. 그 이유는 TF가 최신 5 개

0열

1답변

FrozenLake Q-Learning 업데이트 문제

저는 Q-Learning을 배우고 OpenAI Gym의 FrozenLake-v0 문제에 대해 Q-learner를 구축하려고합니다. 문제는 단지 16 개의 상태와 4 가지 가능한 액션을 가지고 있기 때문에 상당히 간단해야하지만 내 알고리즘이 Q- 테이블을 올바르게 업데이트하지 않는 것처럼 보입니다. import gym import numpy as np f

0열

1답변

시간차 학습을 사용하는 것은 무엇입니까?

아는 한 특정 정책 \ pi에 대해 시간적 차이를 학습하면 해당 정책 \ pi 다음에 나오는 예상 값을 계산할 수 있지만 특정 정책을 아는 의미는 무엇입니까? 주어진 환경에서 최적의 정책을 찾아야하지 않습니까? 시간차 학습을 사용하여 특정 \ pi를하는 것은 무엇입니까?

0열

1답변

PyTorch Tensor.index_select()를 사용하는 방법?

현재 PyTorch를 사용하여 REINFORCE 알고리즘을 구현하려고합니다. 보상을 할인 한 후에 책임있는 산출물을 수집 할 수 있기를 바랍니다. 따라서 작업 메모리가 주어지면 색인의 텐서 (Tensor)를 만들고 Tensor.index_select를 사용하려고 시도하지만 성공하지는 않습니다. 누구든지 도와 줄 수 있습니까? return IndexSelec

0열

2답변

유틸리티 란 무엇입니까?

Q 학습의 일환으로 목표는 예상 유틸리티를 최대화하는 것입니다. 내가 아는 읽기 위키 피 디아 : https://en.wikipedia.org/wiki/Q-learning는 다음과 같은 상황에서 기대 효용을 설명 그것은 궁극적으로주는 액션 값 기능을 학습하여 작동 주어진 상태에서 특정 조치를 취하기의 기대 효용과 그 후에 최적의 정책을 따르는 . Q- 학습

0열

1답변

CartPole에 대해 9로 고정 된 Deep Q 스코어

따라서 tensorflow를 사용하여 deepQ 구현을 사용하여 CartPole-v0을 해결할 수 있지만 때때로 출력 (전체 실행의 40 %)이 9에 고정되어 있습니다. tf.set_random_seed,하지만 여전히 출력이 멈추지 않을 것을 보장하지는 않습니다. 이건 내 코드입니다 : 내가 GD, rmsProp에 최적화 변경 시도 from collecti

0열

1답변

비 정책 강화 학습 및 경험적 재생과 함께 사용할 수 있습니까?

DQN은 ANY 정책에 따라 수집 된 경험적 데이터로부터 최적의 정책을 학습하기 위해 오프 정책 RL을 사용합니다. 전문가 관찰 이전의 비 - 최적의 정책 등 경험이 형태의 데이터의 집합이다 : (S1, A1, R2, S2) 여기서 R2는 수신 된 실제 보수는 a1을 실행 한 직후. 이용 사례 폼의지도 학습 예를 설정하는 데 사용된다 순 INPUT (S1,