Multi-agent maximum discounted causal entropy逆強化学習による報酬推定

浪越 圭一; 荒井 幸代

doi:10.11517/pjsai.JSAI2019.0_3P4J705

抄録

群衆，交通流，金融など，現実の環境は，複数の行動主体が相互作用するマルチエージェント系である．Multi-agent simulation(MAS)はマルチエージェント系を再現する枠組みの一つであり，行動予測や行動目的の理解に用いられる．しかし，全エージェントの行動ルールを記述し全体の振舞いを再現するMASは，多くの試行錯誤と妥当性説明を必要としてきた．そこで本提案では，全エージェントの振舞いを観測した行動ログから，各エージェントの従う行動ルールと，行動目的を反映した報酬を推定する新たなMulti-agent逆強化学習を提案する．具体的には，infinit horizonのマルコフ決定過程を対象とするMaximum discounted causal entropy逆強化学習をマルチエージェント系に拡張し，その解法を示す．既存法と比較し，提案法は一般的なMarkov gameへ適用可能であり各エージェントの報酬を推定する点が異なる．実験では，エージェント2体のGridWolrd環境を用いて，決定的なNash均衡方策で生成した行動ログから，妥当な行動ルールと報酬が推定できることを示した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）