reinforcement-learning

2열

2답변

현재 강화 학습에서 유명한 Mountain Car problem을 연구 중입니다. 이 문제는 연속적인 성격을 띤다. 즉, -1.2에서 0.5 사이의 속도와 -0.07에서 0.07 사이의 두 가지 변수가 있음을 의미한다. 그리고 역방향 가속, 전진 가속 및 중립, 3 가지 동작이 가능하므로 적절한 방향으로 위치가 변경됩니다. 가속도 계산 방법에 따라 위치 변

3열

1답변

그리드 세계의 정책 반복에 대한 직감

정책 반복 및 값 반복을 사용하여 할당에 대한 MDP 에이전트를 제안하고 성능을 상태의 유틸리티 값과 비교해야합니다. MDP 에이전트는 전환 가능성 및 보상을 알고 있으므로 이동 작업을 어떻게 알 수 있습니까? 제 생각에 MDP 에이전트는 정책 반복을 수행하고 정책에 따라 종료 상태에 도달하는 동안 얻은 보상을 계산합니다. 이 정책은 값 반복 알고리즘에서

15열

1답변

C++ 강화 학습 라이브러리

강화 학습 알고리즘을 구현했지만 결과에 크게 만족하지 못한 C++ 라이브러리를 찾고있었습니다. TU Graz의 Reinforcement Learning Toolbox 2.0을 찾았지만 불행히도이 프로젝트는 매우 오래되었고 컴파일 할 수 없었습니다. Hado van Hasselt의 코드도 있습니다. 그것은 유망 해 보이지만 적극적으로 유지 보수되는 것 같지

0열

2답변

4 행 게임에서 강화 학습을위한 최상의 알고리즘

4 행 게임에서 강화 학습을위한 최상의 알고리즘은 무엇입니까? 나는 재생할 RL 알고리즘 중 하나를 사용하는 행 게임에서 넷을 구축하려는 : 등 내가 자바를 사용하고 고려를 사용하는 최선의 하나입니다 무엇 Q-학습, MINMAX을.

11열

5답변

진화론 적 계산이 보강 학습의 한 방법 일 수 있습니까?

진화 계산이란 무엇입니까? 강화 학습의 방법입니까? 또는 기계 학습의 별도 방법? 아니면 전혀? 이 질문에 답하는 데 사용 된 참조를 인용하십시오.

3열

2답변

Q-Learning에서 MinMax 나무를 사용하는 방법?

Q-Learning에서 MinMax 나무를 사용하는 방법? Q-Learning을 구현하려면 4 명의 에이전트를 연결하고 MinMax 트리를 추가하면 도움이된다고 들었습니다.

2열

1답변

연속적으로 계속되는 강화 학습 방법

나는 회사가 가격을 설정하고 생산 결정을 내리는 모델을 만들고 있습니다. 가격은 연속적이며 의사 결정 변수도 있습니다. (재고, 마지막 판매, 가격 ...). 어떤 보강 학습 방법을 계속 사용할 수 있습니까? 어떤 파이썬 패키지가 있습니까? 파이썬 패키지가 없다면 래퍼를 작성할 수 있습니다.

3열

1답변

강화 학습을 통한 다중 기준 최적화

시스템의 전원 관리에 대해 연구 중입니다. 최소화하고자하는 목표는 전력 소비와 평균 대기 시간입니다. I는 가중치 w 가변 전원에 다른 우선 순위를 설정하여 파레토 최적 트레이드 오프 곡선을 찾아 Q 러닝 사용하고 C=w.P_avg+(1-w).L_avg, where w belongs to (0,1) : I 단일 목적 함수가 모두 목표 선형 가중 합을

2열

2답변

훈련 값이없는 신경망

훈련 값을 제공하지 않고 신경망을 훈련하는 방법을 궁금합니다. 나의 전제는 신경망이 센서에서 긍정적/부정적 피드백을받을 수있는 로봇에 사용될 것이라는 전제입니다. IE는 사물에 부딪히지 않고 자유롭게 돌아 다니도록 훈련시키기 위해 충돌 센서 나 근접 센서가 작동하지 않을 때 긍정적 인 피드백이 발생합니다. 충돌/근접 센서가 트리거되면 음의 피드백이 발생합니

3열

1답변

신경망과 결합하여 Q- 학습 (보람있는 이해)

신경 이해를 돕기 위해 신경망에 의해 Q 값 (상태 - 행동 - 쌍 - 평가)을위한 룩업 테이블을 대체 할 수 있습니다 이러한 상태 - 행동 쌍을 추정하기위한 것이다. 필자는 작은 라이브러리를 프로그래밍하여 특정 입력 - 출력에 대해 원하는 목표 값을 학습 할 수 있도록 자체 구축 된 신경망을 통해 전파 및 백 프로 퍼 게이트 할 수있었습니다. 그래서 나는