미리 정의 된 "감지 위치"로 이동하여 알 수 없지만 패턴이있는 환경 (예 : 사무실 건물)을 탐색하는 시뮬레이션 로봇이있는 프로젝트를 진행 중입니다. 즉, 각 점에서 로봇은 사용 가능한 가시 위치에서 이동할 새 위치를 선택해야합니다. 우리의 궁극적 인 목표는 로봇이 글로벌 탐사 시간을 최적화하기 위해 환경 패턴을 악용하는 방법을 배우도록하는 것입니다.강화 학습 - 주어진 점수로 가중치를 최적화
로봇은 위치에 대한 여러 가지 알려진 피쳐의 선형 조합 (예 : 점까지의 거리, 점에서 다른 점까지의 평균 거리, 이미 탐험 된 지점 주변의 지역 등). 내 목표는이 유틸리티 함수의 가중치를 최적화하여 전체 환경을 탐색하는 가장 빠른 시간을 제공하는 것입니다.
점수가 전체 탐색 경로에 따라 다르므로 중간 탐색을 변경하지 않으려합니다. 가중치 조합을 테스트하려면 시뮬레이트 된 로봇이 해당 가중치로 전체 환경을 실행하고 결과 점수를 얻길 바란다. 따라서, | w | +1 x n 데이터 배열을 만들 수 있습니다. 여기서 | w | 다음과 같은 가중치의 수입니다.
w1 w2 w3 w4 score
0.23, 4.30, -0.33, -2.001, 17030
-1.3, 2.03, -10.1, -0.021, 21983
3.65, -1.1, 5.021, 0.2301, 19508
etc...
제 질문은 어떤 종류의 보강 학습 알고리즘이 가장 좋을까요? 문학에서 발견 한 것과 연구는 분류와 관련이 있으며, 분명히 다 변수 회귀는 효과가 없습니다. 나는 또한 q- 러닝 알고리즘을 구현하려고 시도했지만, 취해진 경로와 환경의 구조에 따라 다양한 수의 상태와 동작이 있기 때문에 이것은 실제로 작동하지 않는다. 제가 정말로 원했던 것은 데이터의 행 이후에 행을 취하고 예상되는 점수를 최대화하는 가중치 및 그 조합의 값을 결정하는 일종의 구조입니다. 어떤 도움/아이디어? 감사.
완벽합니다. 링크 주셔서 감사합니다! – pmwalk