2017-11-29 1 views
0

Q 학습의 일환으로 목표는 예상 유틸리티를 최대화하는 것입니다. 내가 아는유틸리티 란 무엇입니까?

읽기 위키 피 디아 : https://en.wikipedia.org/wiki/Q-learning는 다음과 같은 상황에서 기대 효용을 설명

그것은 궁극적으로주는 액션 값 기능을 학습하여 작동

주어진 상태에서 특정 조치를 취하기의 기대 효용과 그 후에 최적의 정책을 따르는 .

Q- 학습의 장점 중 하나는 환경을 필요로하지 않고 사용 가능한 동작의 예상 유틸리티를 과 비교할 수 있다는 것입니다.

그러나 어떤 유틸리티가 무엇인지, 유틸리티는 무엇을 의미합니까?

utility을 최대화 할 때 정확히 최대화되는 것은 무엇입니까?

답변

0

이 경우 "유틸리티"는 기능 또는 유용성을 의미합니다. 따라서 "최대 기능"또는 "최대 유용성". 구글에 단어를 연결해

을 제공합니다

유용 수익성, 또는 도움이되는 상태. 일반적인 용어로

0

, 유틸리티는 (@ 롭은 자신의 반응에 게시 된) 수익 또는 이익을 의미한다. 당신은 위키 백과의 설명에 읽을

Q-학습 맥락에서

, 유틸리티액션 값 기능으로 (그들은 동의어로 볼 수있다) 관련 닫힙니다. 여기서 정책 π의 조치 값 기능은 주어진 상태 인 s에서 a 작업을 수행하고 π 정책을 수행하는 경우 에이전트가 얻는 반환 (장기 보상)의 추정입니다. 따라서 유틸리티를 최대화하면 실제로 에이전트가 얻을 수있는 보상을 최대화합니다. 목표를 달성하기 위해 보상이 정의되므로 목표 달성의 "양"을 극대화합니다.

관련 문제