主催: 一般社団法人 人工知能学会
会議名: 2023年度人工知能学会全国大会(第37回)
回次: 37
開催地: 熊本城ホール+オンライン
開催日: 2023/06/06 - 2023/06/09
強化学習において評価時の環境パラメータが未知の場合に,環境パラメータについての最悪regretの最小化により,環境の不確実性に対して頑健なエージェントを学習する手法が提案されている.学習時に真のregretが求まることは稀であるため,各環境パラメータに対する最適方策の近似を通してregretを近似する方法がしばしば用いられる.しかし,近似された最適方策を用いてregretを近似する場合,この近似精度が不十分であることに起因して最悪regretを最小化する方策の学習に失敗することがある.本研究では,各環境パラメータについての最適方策の学習精度を向上させることで,より正確なregretの近似を図るアプローチを提案する.数値実験により,提案アプローチを用いることで,regretの近似精度が向上すること,また,最悪regretの最小化の精度が上がることが確認できた.