NLEにおけるランダムネスとエピソード長に関する深層強化学習の課題とその分離

清田 浩史

doi:10.11517/pjsai.JSAI2025.0_3Win521

抄録

強化学習環境であるNetHack Learning Environment (NLE) は• プレイ毎に異なるダンジョンが生成されるランダム性や広大な状態・行動空間，長いエピソード長による遅延報酬が特徴であり，深層強化学習による攻略が困難なことが知られている．この要因として，本稿では環境のランダム性に着目した．ランダム性の影響を評価するため，学習・評価時に乱数シードを固定しランダム性の排除を試みた．結果，乱数シードを固定することで学習の速度は向上したため，少なくとも学習初期においてランダム性が学習を困難にしている要因であることが確かめられた．しかし，ランダム性を排除したとしても学習の進行は緩やかであり，ランダム性以外の要因の影響も受けていることが示唆された．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）