逆強化学習による複数均衡下での均衡収束の実現

荒井 幸代; 鈴木 香名子; 大喜多 周

doi:10.11517/pjsai.JSAI2012.0_1L2R79

第26回 (2012)

セッションID: 1L2-R-7-9

DOI https://doi.org/10.11517/pjsai.JSAI2012.0_1L2R79

会議情報

主催: 社団法人人工知能学会

会議名: 2012年度人工知能学会全国大会（第26回）

回次: 26

開催地: 山口県山口市山口県教育会館等

開催日: 2012/06/12 - 2012/06/15

逆強化学習による複数均衡下での均衡収束の実現

*荒井幸代, 鈴木香名子, 大喜多周

著者情報

会議録・要旨集フリー

詳細

抄録

ナッシュ均衡が複数存在するゲームでは,エージェントが最適な唯一の解に収束するためのインセンティブが必要となる。本稿では,スタグハントゲームを用いてエージェントが協力してスタグ（鹿）を狙うように導く報酬関数を逆強化学習によって推定する方法を提案する．また，本手法に対して，通常のＱ学習において「スタグを狙う行動を獲得させる」報酬を試行錯誤的に設計する方法とを比較し，提案手法の有用性を示す

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）