시스템의 전원 관리에 대해 연구 중입니다. 최소화하고자하는 목표는 전력 소비와 평균 대기 시간입니다. I는 가중치 w 가변 전원에 다른 우선 순위를 설정하여 파레토 최적 트레이드 오프 곡선을 찾아 Q 러닝 사용하고강화 학습을 통한 다중 기준 최적화
C=w.P_avg+(1-w).L_avg, where w belongs to (0,1)
: I 단일 목적 함수가 모두 목표 선형 가중 합을 갖는 가지고 소비 및 평균 대기 시간. 나는 파레토 최적 곡선을 얻는다. 내 목표는 제약 조건 (예 : 평균 대기 시간 L_avg)을 제공하고 따라서 주어진 기준을 충족시키기 위해 w의 값을 조정/찾는 것입니다. Mine은 온라인 알고리즘이므로 w의 튜닝은 온라인 방식으로 이루어져야합니다.
이와 관련하여 힌트 또는 제안 사항을 제공 할 수 있습니까?
의견을 보내 주셔서 감사합니다. 그러나 다중 에이전트 RL이있는 권장 된 논문/방법은 오프 정책 학습 또는 일시적인 작업을위한 것입니다. 내 경우에는 온라인 학습 문제가 있습니다. – user846400