知能と情報
Online ISSN : 1881-7203
Print ISSN : 1347-7986
ISSN-L : 1347-7986
原著論文
ボルツマンマシンのエネルギーに基づく方策を用いる方策勾配法によるマルチエージェント強化学習
石原 聖司五十嵐 治一
著者情報
ジャーナル フリー

2022 年 34 巻 3 号 p. 624-634

詳細
抄録

価値関数を用いずに期待報酬の勾配関数を表現するREINFORCEアルゴリズムなどの方策勾配法は,マルチエージェント系への適用において,報酬や状態遷移確率などの環境モデルやエージェントが決定する方策にマルコフ性を仮定する必要がない.この種の方策勾配法の一つとして,行動決定のために最小化することを目的とする関数を,方策に相当するボルツマン選択のエネルギー関数として使用する方式があり,状態と行動の組み合わせの価値やヒューリスティクスなどを表す重みによって目的関数を柔軟に構成できることが示されている.一方,マルチエージェント系における強化学習には,環境の複雑さ,エージェントや行動の数の増加によって,状態数が著しく増える状態爆発の問題がある.その有効な対応策の一つとして,ボルツマンマシンで価値関数を近似する方式が提案されている.ボルツマン選択で表現した方策に目的関数を用いる方策勾配法においても,ボルツマンマシンによる近似を適用できれば有用である.本論文では,第一に,ボルツマン選択で表現した方策中の目的関数をボルツマンマシンのエネルギーで近似して方策勾配法で学習する一手法を提案する.第二に,モジュール構造を持つ制限ボルツマンマシンのエネルギーで当該の目的関数を近似するより効率的な手法を提案し,それに対応した方策勾配法の学習則を示す.マルチエージェント系の例題である追跡問題への適用実験の結果,両提案法によって少ないパラメータ数で適切な方策を学習できたことと,学習にかかる計算コストを第二の提案法によって大幅に削減できたことを確認した.

著者関連情報
© 2022 日本知能情報ファジィ学会
前の記事 次の記事
feedback
Top