実世界データにおける近似誤差を踏まえた認知的満足化探索

南 朱音; 小林 優希奈; 甲野 佑; 高橋 達二

doi:10.11517/pjsai.JSAI2020.0_2I5GS203

抄録

複雑な入力情報から取るべき行動を推論する深層強化学習は，強力な関数近似器での学習(Deep Learning)が発展の核となった．強化学習には教師あり学習とは異なり，自分でデータ収集しなければならない探索の概念を持ち，単純な強化学習の一種であるバンディット問題では最適な探索アルゴリズムが明らかになっている．しかしながら関数近似を用いる文脈付きバンディット問題では最適な探索が保証されなくなる．そこで本研究では従来とは異なる探索アルゴリズムの検証を行った．人間は報酬の目標水準を持ち，それを満たす行動を速やかに探索する性質(満足化)が知られている．この満足化を応用した文脈付きバンディットアルゴリズムに応用した linear Risk-sensitive Satisficing (LinRS) は人工的な分布を用いた課題では既存アルゴリズムと比較しても良い成績が得られている．本研究では実世界から実測データでの文脈付きバンディット問題での検証を行った．人工データより実世界データの成績は悪化すると言われており，その対処法として LinRS における適切な探索のための目標水準の調整について議論する．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）