潜在空間上における目標状態へのベクトルとしての行動表現

原田 憲旺; 鈴木 雅大; 松尾 豊

doi:10.11517/pjsai.JSAI2022.0_2M4OS19b02

抄録

既存の強化学習における枠組みでは，行動空間の設計には重点を置かれないまま行動を行動空間の点として扱っている．既存の強化学習の行動への捉え方とは異なり，我々は人間の行動過程を参考に，目標状態への到達に向けた潜在空間上での変化量として行動をとらえ，これを潜在行動と定義する．潜在空間上での制御目標までの距離を最小化するように潜在行動を取ることが実際の入力空間における最適行動に対応することを目指し，未来の観測を予測する変分自己符号化器を使用した潜在空間の表現学習手法を検討する. 未来の観測を予測しない, 現在の観測を復元するような変分自己符号化器を使用し, 入力空間での制御目標との誤差から行動を選択する手法と比べ安定して制御目標に収束することを実験で示し, 今後潜在行動による行動選択手法を拡張させていく上で課題となりうる事柄について考察する.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）