Abstract
본 논문에서는 정책과 가치가 단일 신경망에 의해 표현되고 학습되는 구조의 신경망을 기반으로 하여 몬테카를로 트리탐색을 적용한 인공지능 오델로 게임 에이전트의 구현을 제안하였다. 본 논문에서 적용하는 신경망 학습은 인공지능플레이어의 자가 대국을 통해 생성된 학습 데이터를 이용하여 수행되는데 기존의 정책이 MCTS를 통해 얻은 강력한 정책을 따라가도록 CNN을 학습한다. 본 논문에서 제안한 인공지능 오델로의 성능 평가를 위해 MPC 탐색을 사용하는 현존 최강 오델로 프로그램인 Wzebra 및 Tothello와 대국을 통해 성능을 비교하였고, 최소최대탐색 알고리즘이 적용된 기존의 에이전트와 본 논문에서 제안하는 에이전트의 신경망 학습 진행에 따른 중간 단계별 에이전트와의 대국을 통해 학습 진행에 따른 승률 변화를 관찰하였다.
Published Version
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have