環境モデルの逐次推定導入による検証可能な強化学習 ～獲得方策の理解による安全なAIの実現～

永田 健斗; 荒井 幸代

doi:10.11517/pjsai.JSAI2024.0_2E6GS805

抄録

自動車やプラントなどの制御タスクは，環境を数理モデルで記述する制御理論の導入が一般的である．そのため，可読性や信頼性が高く，安定性の保証がされる一方，数理モデルは運動方程式などの第一原理モデリングで構築されることが多いため，自律飛行ドローンなどの非線形性や不安定性を持つタスクへの導入には限界がある．これに対して，強化学習は環境モデルを必要せずに制御方策が得られることから，実世界への適用が進められている．しかし，その方策はニューラルネットワークの重みに過ぎないことから，合理性や安定性の保証は難しい．そこで，本研究では深層強化学習の方策の解釈や安定性を獲得することを目的とし，強化学習の試行錯誤の過程で得られる行動と状態の軌跡を活用し，環境モデルを陽に推定する手法を提案する．その結果，システム同定を施すことで線形モデルとして推定したが，より解釈可能なモデル構築のために，その解析や手法の改善の必要がある．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）