人工知能学会全国大会論文集
Online ISSN : 2758-7347
第37回 (2023)
セッションID: 3E1-GS-2-01
会議情報

Min-Max Regret型強化学習におけるRegret近似の改善
*齊藤 啓太田邊 拓実秋本 洋平
著者情報
キーワード: 強化学習, 汎化
会議録・要旨集 フリー

詳細
抄録

強化学習において評価時の環境パラメータが未知の場合に,環境パラメータについての最悪regretの最小化により,環境の不確実性に対して頑健なエージェントを学習する手法が提案されている.学習時に真のregretが求まることは稀であるため,各環境パラメータに対する最適方策の近似を通してregretを近似する方法がしばしば用いられる.しかし,近似された最適方策を用いてregretを近似する場合,この近似精度が不十分であることに起因して最悪regretを最小化する方策の学習に失敗することがある.本研究では,各環境パラメータについての最適方策の学習精度を向上させることで,より正確なregretの近似を図るアプローチを提案する.数値実験により,提案アプローチを用いることで,regretの近似精度が向上すること,また,最悪regretの最小化の精度が上がることが確認できた.

著者関連情報
© 2023 人工知能学会
前の記事 次の記事
feedback
Top