主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
自動車やプラントなどの制御タスクは,環境を数理モデルで記述する制御理論の導入が一般的である.そのため,可読性や信頼性が高く,安定性の保証がされる一方,数理モデルは運動方程式などの第一原理モデリングで構築されることが多いため,自律飛行ドローンなどの非線形性や不安定性を持つタスクへの導入には限界がある.これに対して,強化学習は環境モデルを必要せずに制御方策が得られることから,実世界への適用が進められている.しかし,その方策はニューラルネットワークの重みに過ぎないことから,合理性や安定性の保証は難しい.そこで,本研究では深層強化学習の方策の解釈や安定性を獲得することを目的とし,強化学習の試行錯誤の過程で得られる行動と状態の軌跡を活用し,環境モデルを陽に推定する手法を提案する.その結果,システム同定を施すことで線形モデルとして推定したが,より解釈可能なモデル構築のために,その解析や手法の改善の必要がある.