方策とモデルのエントロピ正則を導入したオフラインモデルベース模倣学習

内部 英治

doi:10.11517/pjsai.JSAI2023.0_2Q1OS27a02

抄録

Model-Based Entropy-Regularized Imitation Learning (MB-ERIL)は方策と状態遷移モデルのエントロピ正則を導入したオンラインのモデルベース敵対的生成模倣学習である．Online-MB-ERILはエキスパートデータ以外に学習エージェントの方策が実環境やモデルとそれぞれインタラクションして得られる3種類のデータから学習する．本報告では，学習エージェントと実環境から得られるデータを使用しないことで，オフライン学習の形式にした場合について考察する．次にPositive and Unlabeled data学習の考えを導入したOffline-MB-ERILを提案する．準最適なデータが与えられたとき，Offline-MB-ERILはラベルなしデータとして利用することで，方策やモデルの推定性能を改善することができる．視覚ベースの腕のリーチング課題を通して，Online-MB-ERILよりもOffline-MB-ERILの方が準最適データを有効に利用できることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

Wall Adhesion Characteristics of Fuel Spray under Flow Conditions in Intake Port Fuel Injection Spark Ignition Engines

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）