Q 학습의 일환으로 목표는 예상 유틸리티를 최대화하는 것입니다. 내가 아는유틸리티 란 무엇입니까?
읽기 위키 피 디아 : https://en.wikipedia.org/wiki/Q-learning는 다음과 같은 상황에서 기대 효용을 설명
그것은 궁극적으로주는 액션 값 기능을 학습하여 작동주어진 상태에서 특정 조치를 취하기의 기대 효용과 그 후에 최적의 정책을 따르는 .
Q- 학습의 장점 중 하나는 환경을 필요로하지 않고 사용 가능한 동작의 예상 유틸리티를 과 비교할 수 있다는 것입니다.
그러나 어떤 유틸리티가 무엇인지, 유틸리티는 무엇을 의미합니까?
utility
을 최대화 할 때 정확히 최대화되는 것은 무엇입니까?