人工知能学会全国大会論文集
Online ISSN : 2758-7347
第34回 (2020)
セッションID: 2I5-GS-2-03
会議情報

実世界データにおける近似誤差を踏まえた認知的満足化探索
*南 朱音小林 優希奈甲野 佑高橋 達二
著者情報
会議録・要旨集 フリー

詳細
抄録

複雑な入力情報から取るべき行動を推論する深層強化学習は,強力な関数近似器での学習(Deep Learning)が発展の核となった.強化学習には教師あり学習とは異なり,自分でデータ収集しなければならない探索の概念を持ち,単純な強化学習の一種であるバンディット問題では最適な探索アルゴリズムが明らかになっている.しかしながら関数近似を用いる文脈付きバンディット問題では最適な探索が保証されなくなる.そこで本研究では従来とは異なる探索アルゴリズムの検証を行った.人間は報酬の目標水準を持ち,それを満たす行動を速やかに探索する性質(満足化)が知られている.この満足化を応用した文脈付きバンディットアルゴリズムに応用した linear Risk-sensitive Satisficing (LinRS) は人工的な分布を用いた課題では既存アルゴリズムと比較しても良い成績が得られている.本研究では実世界から実測データでの文脈付きバンディット問題での検証を行った.人工データより実世界データの成績は悪化すると言われており,その対処法として LinRS における適切な探索のための目標水準の調整について議論する.

著者関連情報
© 2020 一般社団法人 人工知能学会
前の記事 次の記事
feedback
Top