reinforcement-learning

    2

    2답변

    현재 강화 학습에서 유명한 Mountain Car problem을 연구 중입니다. 이 문제는 연속적인 성격을 띤다. 즉, -1.2에서 0.5 사이의 속도와 -0.07에서 0.07 사이의 두 가지 변수가 있음을 의미한다. 그리고 역방향 가속, 전진 가속 및 중립, 3 가지 동작이 가능하므로 적절한 방향으로 위치가 변경됩니다. 가속도 계산 방법에 따라 위치 변

    3

    1답변

    정책 반복 및 값 반복을 사용하여 할당에 대한 MDP 에이전트를 제안하고 성능을 상태의 유틸리티 값과 비교해야합니다. MDP 에이전트는 전환 가능성 및 보상을 알고 있으므로 이동 작업을 어떻게 알 수 있습니까? 제 생각에 MDP 에이전트는 정책 반복을 수행하고 정책에 따라 종료 상태에 도달하는 동안 얻은 보상을 계산합니다. 이 정책은 값 반복 알고리즘에서

    15

    1답변

    강화 학습 알고리즘을 구현했지만 결과에 크게 만족하지 못한 C++ 라이브러리를 찾고있었습니다. TU Graz의 Reinforcement Learning Toolbox 2.0을 찾았지만 불행히도이 프로젝트는 매우 오래되었고 컴파일 할 수 없었습니다. Hado van Hasselt의 코드도 있습니다. 그것은 유망 해 보이지만 적극적으로 유지 보수되는 것 같지

    0

    2답변

    4 행 게임에서 강화 학습을위한 최상의 알고리즘은 무엇입니까? 나는 재생할 RL 알고리즘 중 하나를 사용하는 행 게임에서 넷을 구축하려는 : 등 내가 자바를 사용하고 고려를 사용하는 최선의 하나입니다 무엇 Q-학습, MINMAX을.

    11

    5답변

    진화 계산이란 무엇입니까? 강화 학습의 방법입니까? 또는 기계 학습의 별도 방법? 아니면 전혀? 이 질문에 답하는 데 사용 된 참조를 인용하십시오.

    3

    2답변

    Q-Learning에서 MinMax 나무를 사용하는 방법? Q-Learning을 구현하려면 4 명의 에이전트를 연결하고 MinMax 트리를 추가하면 도움이된다고 들었습니다.

    2

    1답변

    나는 회사가 가격을 설정하고 생산 결정을 내리는 모델을 만들고 있습니다. 가격은 연속적이며 의사 결정 변수도 있습니다. (재고, 마지막 판매, 가격 ...). 어떤 보강 학습 방법을 계속 사용할 수 있습니까? 어떤 파이썬 패키지가 있습니까? 파이썬 패키지가 없다면 래퍼를 작성할 수 있습니다.

    3

    1답변

    시스템의 전원 관리에 대해 연구 중입니다. 최소화하고자하는 목표는 전력 소비와 평균 대기 시간입니다. I는 가중치 w 가변 전원에 다른 우선 순위를 설정하여 파레토 최적 트레이드 오프 곡선을 찾아 Q 러닝 사용하고 C=w.P_avg+(1-w).L_avg, where w belongs to (0,1) : I 단일 목적 함수가 모두 목표 선형 가중 합을

    2

    2답변

    훈련 값을 제공하지 않고 신경망을 훈련하는 방법을 궁금합니다. 나의 전제는 신경망이 센서에서 긍정적/부정적 피드백을받을 수있는 로봇에 사용될 것이라는 전제입니다. IE는 사물에 부딪히지 않고 자유롭게 돌아 다니도록 훈련시키기 위해 충돌 센서 나 근접 센서가 작동하지 않을 때 긍정적 인 피드백이 발생합니다. 충돌/근접 센서가 트리거되면 음의 피드백이 발생합니

    3

    1답변

    신경 이해를 돕기 위해 신경망에 의해 Q 값 (상태 - 행동 - 쌍 - 평가)을위한 룩업 테이블을 대체 할 수 있습니다 이러한 상태 - 행동 쌍을 추정하기위한 것이다. 필자는 작은 라이브러리를 프로그래밍하여 특정 입력 - 출력에 대해 원하는 목표 값을 학습 할 수 있도록 자체 구축 된 신경망을 통해 전파 및 백 프로 퍼 게이트 할 수있었습니다. 그래서 나는