人工知能学会全国大会論文集
Online ISSN : 2758-7347
第33回 (2019)
セッションID: 2D3-E-4-02
会議情報

非定常環境における先駆者からのエミュレーション学習の柔軟性
神力 幹*若林 洋尭甲野 佑高橋 達二
著者情報
キーワード: 社会学習, 強化学習, 満足化
会議録・要旨集 フリー

詳細
抄録

イミテーション(模倣)ではエージェントは他のエージェント(エキスパート)の特定の状態行動対(毎ステップの意思決定)を直接参照して学習する. イミテーションの強化学習の実装としては逆強化学習が挙げられる. それに対して我々は, 社会学習の1つであるエミュレーション(対抗模倣)のための新しいフレームワークを提案する. エミュレーションとはエキスパートの到達収益のみ与えられ, その結果を再現する行動手順を自律的に探索する手法で, 社会的な模倣学習の一種と見做せる. 本研究では満足化と呼ばれる人間の探索のモデルを用いてエミュレーションを強化学習の枠組みで実装する. 我々は, エミュレーション学習アルゴリズムが, しばしば観察される最適性と柔軟性のトレードオフ的関係を破り, 非定常強化学習タスクにおいて適切に学習・行動できることを示す.

著者関連情報
© 2019 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top