2012-01-08 2 views
0

4 행 게임에서 강화 학습을위한 최상의 알고리즘은 무엇입니까? 나는 재생할 RL 알고리즘 중 하나를 사용하는 행 게임에서 넷을 구축하려는 : 등 내가 자바를 사용하고 고려를 사용하는 최선의 하나입니다 무엇4 행 게임에서 강화 학습을위한 최상의 알고리즘

Q-학습, MINMAX을.

답변

0

MinMax는 그 게임에 꽤 좋습니다. 진정한 질문은 어떤 움직임의 "가치"가 무엇인지를 결정하는 eurhistic 기능이 얼마나 좋은가입니다.

+0

휴리스틱 기능을 어떻게 구축 할 것을 제안합니까? – Vadiklk

0

MINMAX은 일반적으로 강화 학습 알고리즘으로 간주되지 않습니다, 그러나 그것은 아마도 '최고'연결 4. 위해 (당신이 무슨 뜻인지에 따라)입니다

연결 4 solved (많은에있다 보드의 다른 크기) 거의 30 년 동안. 솔버는 심지어 Fhourstones으로 알려진 프로세서 벤치 마크로 사용되고 심지어 Java (및 C)의 source은 무료로 사용할 수 있습니다.

Q- 학습 (표 형식), REINFORCE 또는 신경 네트워크 (DQN) 또는 Action Advantage Actor Critic (A3C)을 사용한 심층 Q- 학습과 같은 최신 강화 학습 알고리즘에 대해 배우려는 목적이있는 경우) 그렇다면 이것들이 모두 Connect 4에 성공적으로 적용될 수 있다는 것은 의심의 여지가 없습니다. Barto와 같은 좋은 책을 추천합니다 & Sutton의 강화 학습. 서면 작성시 draft of the 2nd edition은 PDF 형식으로 자유롭게 사용할 수 있습니다.

그러나 당신의 목표가 단순히 최고의 플레이어를 보유하고 있다면, 당신은 Fhourstones의 완벽한 플레이를 이기기 위해 고심 할 것입니다.

관련 문제