人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 2Q4-OS-27b-04
会議情報

Gaussian 分布の報酬への自然強化学習の拡張
*小河 将真有村 柊一高橋 達二甲野 佑
著者情報
会議録・要旨集 フリー

詳細
抄録

近年,エージェントが行動を環境と相互作用しながら学習し,目的達成度合いを意味する獲得報酬の最大化を目指す強化学習の進展が盛んに行われている.特にバンディットアルゴリズムは広く活用されており,その中でも広告配信などのレコメンド分野では当たり前になっている.しかし,レコメンド分野における報酬の最大化は,人間の複雑性や非定常性から実際には困難な場合が度々あり,獲得報酬がある水準を達成しているかが大事な場面が多い.それは,人間の選好の性質にも合致しており,適切に水準を設定した場合において優れた性能を示す.そのような認知傾向を探索に取り入れたのが Risk-sensitive Satisficing (RS) で, RS は目的に沿って設定された希求水準の達成を目指す自然強化学習のアルゴリズムである. 広告や商品をクリックしたか否かなどに用いられるベルヌーイ分布の報酬のような自然強化学習では優れた性能を示すが,実応用上バンディット問題では視聴時間など連続値の報酬を扱うことが多い.本研究では正規分布からなる実数値の報酬を用いたバンディット問題に RS を適用した場合の性能を検証し,いくつかの考察を示す.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top