不完全情報展開型ゲームの求解における利得摂動に関する研究

眞坂 航宙; 坂本 充生; 阿部 拳之; 蟻生 開人; 岩崎 敦

doi:10.11517/pjsai.JSAI2025.0_3J4GS501

抄録

本研究では，不完全情報二人零和展開型ゲームの求解において有効な利得に摂動を加える手法について吟味する．相手の情報が見えない意思決定問題は不完全情報ゲームとして定式化でき，このようなゲームの均衡解を求めることはゲーム理論や経済学，政治などの多様な分野で有用性が高く，重要である．しかしプレイヤは観測できない情報を考慮しながら確率的な行動を選択する必要があり，学習は困難を伴う．ゲームの求解にはFTRLなどのオンライン学習アルゴリズムが用いられるが，得られる戦略が均衡に直接収束しないため，利得に適切な摂動を加えて均衡解への収束を促す手法が近年研究されている．一方で膨大な状態数を持つ展開型ゲームでは，ゲーム木の全探索が難しいため一部の履歴をサンプリングをし計算量を削減するアプローチが取られるが，推定に伴う分散が学習を不安定化させる．この枠組みに適した利得の摂動方法は未だに明らかになっていない．そこで本研究では推定時の分散を低減させる利得の摂動方法を提案する．既存手法と比較をし効率的な学習を可能にする摂動手法を探り，計算機実験により提案手法が特定のゲームで既存手法を上回ることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）