2017-11-16 1 views
0

트리가 충분히 깊어서 터미널 노드가 선택되기 시작했다면, 제로 이동 "재생"을 수행하고 결과를 역 전파해야한다고 가정했을 것입니다. 그러나 IEEE survey of MCTS methods은 선택 사항이 단계는 "가장 긴급한 확장 가능한 노드"를 찾아야하고 다른 반례는 찾을 수 없습니다. 나는 그들을 어떻게 든 배제해야만 하는가? 여기에서 옳은 일은 무엇입니까?몬테 카를로 트리 검색에서 터미널 노드를 처리하는 방법은 무엇입니까?

답변

1

실제로 선택 단계에서 터미널 노드에 도달하면 확장 및 재생을 건너 뛰고 (더 이상 의미가 없음) 해당 터미널 노드의 값을 똑같은 방식으로 역 전파하십시오.

연결된 종이에서 6 페이지에서 분명하지 않지만 9 페이지의 알고리즘 2에서 분명합니다.이 의사 코드에서 TreePolicy() 함수는 끝 노드 v를 반환하게됩니다.이 상태 노드가 DefaultPolicy() 함수로 전달되면 해당 함수는 직접 보상을 반환합니다 (해당 함수의 while 루프는 절대로 충족되지 않습니다).

알고리즘을 직관적으로 이해하고 무한한 처리 시간을 고려한 최적의 값 견적을 보장 할 수 있기를 원하는 경우이 작업을 수행하는 것이 좋습니다. 무한한 처리 시간 (무한한 시뮬레이션 횟수)을 사용하면 무한히 자주 "최상의"터미널 상태의 값을 백업해야하므로 루트에 가까운 노드의 백업에서 평균 된 값도 해당 노드로 수렴됩니다. 제한에서 최상의 리프 노드 값.

관련 문제