確率的方策に基づいた自然強化学習

鈴木 匠海; 越川 駿平; 高橋 達二; 甲野 佑

doi:10.11517/pjsai.JSAI2023.0_1B4GS204

抄録

近年，人工知能技術の一つである機械学習の中で，特に意思決定則（方策）を学習する手法である強化学習とさまざまな機械学習タスクで驚異的な性能を実現している深層学習を組み合わせた深層強化学習が注目されている．実際，囲碁や Atari というビデオゲームにおいて，人間よりも高いパフォーマンスを見せている．一方で，限定された環境の範囲を超えた実世界タスクへの応用は進展が遅く，別のアプローチも必要となる可能性がある．そこで我々は希求水準を設定し報酬に質を見出す自然強化学習に着目した．自然強化学習では人間の合目的的な性質を探索に取り入れており，自然強化学習のアルゴリズムである Risk-senstive Satisficing (RS) においてテーブル型強化学習ではすでに一定の合目的的な探索とその効率性が示されている．しかし，現状の RS は決定論的な方策であり，深層強化学習に用いられる確率分布を利用したアルゴリズムへの応用に困難がある．そこで本研究では RS を深層化するに当たって，決定論的な方策を確率的に拡張し，既存のテーブル型強化学習のタスクと同等の優れた成果が得られているのか検証した．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）