3

시스템의 전원 관리에 대해 연구 중입니다. 최소화하고자하는 목표는 전력 소비와 평균 대기 시간입니다. I는 가중치 w 가변 전원에 다른 우선 순위를 설정하여 파레토 최적 트레이드 오프 곡선을 찾아 Q 러닝 사용하고강화 학습을 통한 다중 기준 최적화

C=w.P_avg+(1-w).L_avg,  where w belongs to (0,1) 

: I 단일 목적 함수가 모두 목표 선형 가중 합을 갖는 가지고 소비 및 평균 대기 시간. 나는 파레토 최적 곡선을 얻는다. 내 목표는 제약 조건 (예 : 평균 대기 시간 L_avg)을 제공하고 따라서 주어진 기준을 충족시키기 위해 w의 값을 조정/찾는 것입니다. Mine은 온라인 알고리즘이므로 w의 튜닝은 온라인 방식으로 이루어져야합니다.

이와 관련하여 힌트 또는 제안 사항을 제공 할 수 있습니까?

답변

2

커뮤니티에 여러 가지 객관적인 강화 학습 지점이 있습니다.

idear는 1이다 :

각각의 목적에 에이전트의 가족을 할당합니다. 한 패밀리의 에이전트가 얻은 솔루션을 나머지 패밀리의 에이전트가 얻은 솔루션과 비교합니다. 협상 메커니즘은 모든 목표를 충족시키는 타협 솔루션을 찾는 데 사용됩니다.

또한이 당신에게 관심이 될 수있는 용지 : 전력 시스템 파견 및 전압 안정성 학습을 강화하여

다중 목적 최적화.

나는 공개 URL을 찾지 못했습니다.

+0

의견을 보내 주셔서 감사합니다. 그러나 다중 에이전트 RL이있는 권장 된 논문/방법은 오프 정책 학습 또는 일시적인 작업을위한 것입니다. 내 경우에는 온라인 학습 문제가 있습니다. – user846400