タスク補助報酬を付加した敵対的逆強化学習による集団行動下エージェントの役割分担

弓場 亮介; 堀井 隆斗; 長井 隆行

doi:10.11517/pjsai.JSAI2020.0_4G3GS705

抄録

人が集団で課題に取り組む際には，各個人が個別の役割を担い行動する．例えば，複数の子が鬼に捕まらないよう逃げる課題では，単に逃げ回るだけでなく囮役となり鬼をひきつけたり，物陰に隠れるといった行動によって鬼を狼狽させ逃げやすくする．一方でこのような役割分担の実現には，集団内で個々人が互いに異なる種類の行動を獲得する必要がある. 効率的な行動獲得には他者の行動を見まねする模倣学習が有用であるが，従来研究では学習者の個人差や身体性があまり考慮されてこなかった．本研究では，複数エージェントの敵対的逆強化学習に課題達成の支援となる報酬を導入し，逆強化学習によって推定された教示者報酬との重みづけ和を各学習者によって変化させることで，多様な行動を獲得する手法を提案する．そしてこの報酬重みや身体性など学習者が持つ特性の組み合わせと，提案手法によって役割分担の発現を目指す．実験では，学習者集団が鬼との接触を回避する課題において報酬重みと接触回数の関係を検証した．結果として，学習者集団は異なる個人特性を持つことで多様な行動を獲得した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）