満足化強化学習における方策の改善と評価の両立

若林 洋尭; 神谷 匠; 高橋 達二

doi:10.11517/pjsai.JSAI2020.0_2K6ES204

抄録

強化学習は、環境との相互作用を通じて収益の最適化を目的としている。一方で、実際に複雑な環境で生活をしている人間は、満足化と呼ばれる最適化とは異なるルールで意思決定を行なっている。人間は意思決定において、ある基準値を定め,、満足できる行動が見つかるまで探索を続け, 発見したら探索を止めてその行動に満足するという傾向を持つ。これにより、価値関数に満足化を実装した(Risk-sensitive Satisficing: RS)が考案された。さらに、状態が複数の一般的な強化学習での大局的な基準値を設定する大局基準値変換法(Global Reference Conversion: GRC)により、各状態での基準値を設定できた。しかし、現在のGRCにはいくつかの課題が残されている。そこで本研究では、Suboptima Worldを用いてGRCの課題をあらわにし、そのうちの一つの課題を強化学習の手法である適格度トレースを用いて解決できるのかどうかの検証を行い、結果として、適格度トレースを用いたRSは満足度合いの正しい評価を行えていることが示された。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）