2011-03-25 4 views
1

미리 정의 된 "감지 위치"로 이동하여 알 수 없지만 패턴이있는 환경 (예 : 사무실 건물)을 탐색하는 시뮬레이션 로봇이있는 프로젝트를 진행 중입니다. 즉, 각 점에서 로봇은 사용 가능한 가시 위치에서 이동할 새 위치를 선택해야합니다. 우리의 궁극적 인 목표는 로봇이 글로벌 탐사 시간을 최적화하기 위해 환경 패턴을 악용하는 방법을 배우도록하는 것입니다.강화 학습 - 주어진 점수로 가중치를 최적화

로봇은 위치에 대한 여러 가지 알려진 피쳐의 선형 조합 (예 : 점까지의 거리, 점에서 다른 점까지의 평균 거리, 이미 탐험 된 지점 주변의 지역 등). 내 목표는이 유틸리티 함수의 가중치를 최적화하여 전체 환경을 탐색하는 가장 빠른 시간을 제공하는 것입니다.

점수가 전체 탐색 경로에 따라 다르므로 중간 탐색을 변경하지 않으려합니다. 가중치 조합을 테스트하려면 시뮬레이트 된 로봇이 해당 가중치로 전체 환경을 실행하고 결과 점수를 얻길 바란다. 따라서, | w | +1 x n 데이터 배열을 만들 수 있습니다. 여기서 | w | 다음과 같은 가중치의 수입니다.

w1 w2 w3  w4  score 
0.23, 4.30, -0.33, -2.001, 17030 
-1.3, 2.03, -10.1, -0.021, 21983 
3.65, -1.1, 5.021, 0.2301, 19508 
etc... 

제 질문은 어떤 종류의 보강 학습 알고리즘이 가장 좋을까요? 문학에서 발견 한 것과 연구는 분류와 관련이 있으며, 분명히 다 변수 회귀는 효과가 없습니다. 나는 또한 q- 러닝 알고리즘을 구현하려고 시도했지만, 취해진 경로와 환경의 구조에 따라 다양한 수의 상태와 동작이 있기 때문에 이것은 실제로 작동하지 않는다. 제가 정말로 원했던 것은 데이터의 행 이후에 행을 취하고 예상되는 점수를 최대화하는 가중치 및 그 조합의 값을 결정하는 일종의 구조입니다. 어떤 도움/아이디어? 감사.

답변

1

당신은 당신의 설정 (NO 중간 보상, 아니 온라인 학습, 단지 최종 점수)를 공식화하는 방법은 블랙 박스 최적화 (또는 계통 강화 학습)을위한 전형이다.

적절한 알고리즘 중에는 유전 알고리즘, 진화 전략 또는 확률 적 검색이 있습니다. 일부 최첨단 알고리즘은 다음과 같습니다

각각 다른 올

얼마나 많은 매개 변수를 가지고 있느냐, 당신의 점수가 얼마나 시끄러운 지, 얼마나 많은 지역적인 최적을 기대하는지에 따라 다르다.

파이썬에서 이러한 구현을 수집하려면 PyBrain 라이브러리를 살펴보십시오.

+0

완벽합니다. 링크 주셔서 감사합니다! – pmwalk

관련 문제