ショウジョウバエの行動解析における逆強化学習の適用可能性

松田 一流; 荒井 幸代; 佐藤 大気; 高橋 佑磨

doi:10.11517/pjsai.JSAI2022.0_4L3GS1001

抄録

動物や人間の行動戦略や意思決定プロセスの理解は，環境保全や防災計画に向けた重要な課題である。近年，それらの行動軌跡を用いて，報酬に基づく行動戦略を明らかにする逆強化学習を導入した研究が報告されている。逆強化学習（IRL）は，最適方策を持つエキスパートの行動軌跡から，その報酬関数や方策を学習する方法として現在まで様々なアルゴリズムが提案されてきた。それぞれ，所与とする行動軌跡数，事前知識の利用可能性，環境モデルの要/不要などの，前提とする状況が異なる。したがって，対象問題の特徴に合ったアルゴリズムを選定する必要がある。既存研究の多くは、環境モデルを所与とするMaxEntIRLを適用しており，その結果は，モデルの妥当性に依存する。また，入力として用いる行動軌跡の数の影響や，不完全性，共通の報酬関数を前提とすることの是非，さらに，状態入力の設定の違いなど，行動解析の結果に与える影響は大きいと考えられる。本研究では，ショウジョウバエに視覚刺激を与えた場合の行動軌跡に対して，モデルフリーとモデルベースの二つの逆強化学習アルゴリズムによって得られる報酬の比較や，状態入力の設計による影響を検証する。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）