認知的満足化価値関数の関数近似

吉井 佑輝; 甲野 佑; 高橋 達二

doi:10.11517/pjsai.JSAI2020.0_2I5GS202

抄録

人間にはある目的基準を超える収益が得られる手順を発見するとそれに満足し，探索を打ち切るといった満足化と呼ばれる意思決定傾向が存在する．この傾向を強化学習に応用したのが Risk-sensitive Satisficing (RS) である．深層強化学習は人間が行うようなレトロゲームのプレイや運動制御などへ強化学習の適用範囲を広げた．しかし，情報を自ら探索しなければならない点は変わらない一方で，ニューラルネットによる関数近似を用いることで効率的な探索に関する議論を困難にしている．そこで RS を強化学習に反映することで素早く合目的的な探索を実現することが可能になると考えられ，実際に RS はバンディット問題のようなトイタスクの強化学習課題において優れた成績を有している．本研究では RS を関数近似に拡張した Linear RS(LinRS) における目的基準の設定について検証を行うために，文脈付きバンディット問題での実験を行う．それにより，既存アルゴリズムに比べて確率的な環境で優れた成績を有することが分かった．また，基準値と近似誤差の関係から，目的水準に補正が必要であることが分かった．

著者関連情報

お気に入り & アラート

閲覧履歴

[title in Japanese]

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）