主催: 一般社団法人 人工知能学会
会議名: 第34回全国大会(2020)
回次: 34
開催地: Online
開催日: 2020/06/09 - 2020/06/12
強化学習は、環境との相互作用を通じて収益の最適化を目的としている。一方で、実際に複雑な環境で生活をしている人間は、満足化と呼ばれる最適化とは異なるルールで意思決定を行なっている。人間は意思決定において、ある基準値を定め,、満足できる行動が見つかるまで探索を続け, 発見したら探索を止めてその行動に満足するという傾向を持つ。これにより、価値関数に満足化を実装した(Risk-sensitive Satisficing: RS)が考案された。さらに、状態が複数の一般的な強化学習での大局的な基準値を設定する大局基準値変換法(Global Reference Conversion: GRC)により、各状態での基準値を設定できた。しかし、現在のGRCにはいくつかの課題が残されている。そこで本研究では、Suboptima Worldを用いてGRCの課題をあらわにし、そのうちの一つの課題を強化学習の手法である適格度トレースを用いて解決できるのかどうかの検証を行い、結果として、適格度トレースを用いたRSは満足度合いの正しい評価を行えていることが示された。