人工知能学会全国大会論文集
Online ISSN : 2758-7347
第36回 (2022)
セッションID: 2C5-GS-2-01
会議情報

系列モデリング型強化学習に対する将来軌跡予測を用いた長期計画の導入
*森下 皓文森尾 学尾崎 太亮額賀 信尾
著者情報
会議録・要旨集 フリー

詳細
抄録

近年,強化学習の問題が系列モデリング問題として定式化しなおされ,Transformer等の強力な系列学習器が利用できるようになった.現行の定式化では,過去の軌跡(行動・状態・報酬の履歴)から次の行動を予測する.しかし,強化学習の目的は一連の行動選択から得られる報酬和を最大化することであるので,長期の将来に渡る計画を織り込んだ上の行動選択が重要だと考えられてきた. そこで本研究では,系列モデリング型強化学習に対して将来の計画を取り入れる.まず,現行の定式化を一般化して,将来軌跡上の複数の行動・状態・報酬を予測するマルチタスク問題を定式化する.更に,この問題を解くため,ダミー入力トークンを用いてTransformerを将来方向に拡張したモデルを提案する.本モデルに対して将来軌跡の教示を与えることにより,想像上の将来軌跡が中間層表現として獲得されていく.更に,本モデルはこれら将来軌跡表現を自己注意機構によって参照・集約する.以上の機構により,長期の将来を織り込んだ上での行動選択が実現される.提案手法は,AtariとOpenAI Gymのタスクにおいて,将来計画を考慮しないベースラインを上回った.

著者関連情報
© 2022 人工知能学会
前の記事 次の記事
feedback
Top